T I P

Text & Information Processing

  • Increase font size
  • Default font size
  • Decrease font size
English
Home Research projects Desarrollo de servicios de apoyo a la investigación lingüística vía Internet. 2004-2007

Desarrollo de servicios de apoyo a la investigación lingüística vía Internet. 2004-2007

There are no translations available.

Desarrollo de servicios de apoyo a la investigación lingüística vía Internet

Investigador principal: Octavio Santana Suárez (No pertence a TIP)

Financiado por: Ministerio de Educción y Ciencia

Referencia: TIN2004-03988

Nota: Cuatro miembros del grupo TIP participaron en la realización de este proyecto.

Se propone la realización de un conjunto de servicios remotos utilizables vía Internet orientados a dar apoyo computacional a la investigación de los fenómenos lingüísticos del Español. Se trata de poner a disposición de la comunidad investigadora interesada toda la potencialidad de un conjunto de herramientas informáticas —unas ya desarrolladas y otras en fase de desarrollo— resultantes de los trabajos del Grupo de Estructuras de Datos y Lingüística Computacional de la Universidad de Las Palmas de Gran Canaria. Los servicios que se desarrollarán son: un servicio remoto de análisis morfológico, un servicio remoto de información sobre relaciones morfoléxicas y un servicio remoto de desambiguación funcional.

Un complemento interesante a los servicios que se pretende desarrollar, estará constituido por la implementación de algunos clientes de propósito general que permitirán el aprovechamiento de la potencialidad disponible por parte de usuarios que no necesiten, no quieran o no puedan programar sus propias aplicaciones. Los clientes que se desarrollarán son: un cliente de análisis morfosintáctico de textos y un cliente morfoléxico de recuperación de información.

Objetivos concretos

Los servicios remotos y sus clientes constituyen una novedosa tecnología que se construye sobre la base de la utilización de estándares abiertos para facilitar el desarrollo cooperativo aprovechando toda la potencialidad de Internet. En este proyecto se persigue desarrollar, en sintonía con la línea temática 3.6 del Programa Nacional de Tecnologías Informáticas:

  1. Un servicio remoto de análisis morfológico.
    Que ofrezca la lematización de cualquier palabra del español al identificar su forma canónica, categoría gramatical y la flexión o derivación que la produce. En los verbos, tratará la conjugación simple y la compuesta, los pronombres enclíticos, la flexión del participio como adjetivo verbal (género, número) y el diminutivo del gerundio. Con las formas no verbales, considerará: género y número en los sustantivos, adjetivos, pronombres y artículos; heteronimia por cambio de sexo en los sustantivos; grado superlativo en los adjetivos y adverbios; adverbialización del superlativo en los adjetivos; derivación apreciativa en los sustantivos, adjetivos y adverbios; formas invariantes tales como preposiciones, conjunciones, exclamaciones, palabras de otros idiomas y locuciones o frases. Contemplará la prefijación cuando proceda.
  2. Un servicio remoto de información sobre relaciones morfoléxicas.
    Que ofrezca el reconocimiento, la generación y la manipulación de las relaciones morfoléxicas a partir de cualquier palabra, incluyendo la recuperación de toda su información lexicogenética hasta llegar a una primitiva, la gestión y control de los afijos en el tratamiento de sus relaciones, así como la regularidad en la relación establecida. Proporcionará una visión global del comportamiento y productividad de las palabras del español en los principales procesos de formación (sufijación, prefijación, parasíntesis, supresión, regresión, modificación-cero, apócope, metátesis y otros no clasificables que generan grafías alternativas).
  3. Un servicio remoto de desambiguación funcional.
    Que ofrezca la función gramatical de cada voz en el contexto en que aparezca, minimizando las posibilidades gracias al tratamiento que hará tanto de las estructuras sintácticas locales como de los árboles de representación sintáctica.
  4. Un cliente de análisis morfosintáctico de textos.
    Por medio de la utilización de los servicios anteriores, a partir de un texto y mediante una interfaz amigable, permitirá a los usuarios la obtención del análisis morfosintáctico del texto, unas medidas estadísticas de sus características, el señalamiento de los neologismos y la localización de: las coocurrencias gramaticales, las perífrasis verbales, las colocaciones léxicas y otros fenómenos lingüísticos.
  5. Un cliente morfoléxico de recuperación de información.
    Por medio de la utilización de los servicios anteriores, permitirá la localización en Internet de los documentos que satisfagan peticiones que incluyan tanto palabras concretas afectadas en mayor o menor medida por los diferentes mecanismos de transformación de palabras existentes en español, como características gramaticales o fenómenos lingüísticos que puedan ocurrir en el documento.