T I P

Text & Information Processing

  • Incrementar el tamaño de la fuente
  • Tamaño de la fuente predeterminado
  • Decrementar el tamaño de la fuente
Español
Inicio Proyectos con alumnos Extracción textual de páginas web para análisis morfológico

Extracción textual de páginas web para análisis morfológico

Proyecto fin de carrera en desarrollo

Autor: Martín Vega-Leal Ordóñez

Tutor: Francisco Javier Carreras Riudavets

Actualmente internet proporciona a los lingüistas el medio idóneo para trabajar y analizar sus producciones. El análisis morfológico de un texto permite analizar de una forma estadística la calidad de dicho texto y por tanto servir de apoyo a los autores hacia una nueva visión de sus creaciones.

Puesto que la tendencia actual de muchos escritores es migrar su producción en parte o exclusivamente al mundo digital, muchos de sus textos se encuentran escritos en blogs, páginas personales, periódicos digitales, etc, y es por ello que resultaría interesante permitir el análisis directo de toda esta información a través de una herramienta.

Se pretende diseñar e implementar una aplicación web que sea capaz de descargar las diferentes páginas web de un dominio determinado, extraer su contenido textual y analizarlo utilizando el programa de análisis morfológico ParamText TIP.

El objetivo principal de este proyecto es el desarrollo de una aplicación web capaz de recorrer el árbol de páginas web que se encuentran en un dominio determinado, analizar su contenido y extraer el contenido textual para posteriormente analizarlo utilizando el programa de análisis morfológico ParamText TIP. Esta herramienta será integrada en la plataforma web de análisis morfológico de textos del grupo TIP y le añadirá una interesante funcionalidad, permitiendo al usuario el introducir un dominio para analizar.

  • Definir un modelo de software aplicando los criterios aprendidos durante la carrera. Poniendo en práctica la programación modular, comentarios, las bases para la reutilización del código, haciendo uso de las distintas fases del ciclo de vida del software, aplicar criterios de calidad, etc.
  • Implementar la aplicación siguiendo los patrones de programación de la plataforma .NET, para permitir su ejecución dentro de un servidor de aplicaciones y su correcta integración dentro de la aplicación existente.

En la etapa de análisis se aplicarán técnicas y herramientas de Ingeniería del Software, utilizando el lenguaje de modelado UML (Universal Modelling Language) que ofrece un estándar para describir un modelo del sistema, incluyendo aspectos conceptuales tales como procesos y funciones, y aspectos como expresiones de lenguajes de programación y esquemas de componentes reutilizables.

El enfoque metodológico, será el modelo de prototipos, en el que se abordarán las distintas fases considerando la realimentación una vez finalizado cada uno de ellos. Salvo la etapa de documentación que se irá completando a lo largo de la realización del proyecto.

La planificación y coordinación de las actividades del proyecto y de los recursos se realizarán haciendo uso de diagramas de Gantt con los cuales se mostrará el tiempo de dedicación previsto para diferentes tareas y actividades a lo largo del tiempo.