T I P

Text & Information Processing

  • Incrementar el tamaño de la fuente
  • Tamaño de la fuente predeterminado
  • Decrementar el tamaño de la fuente
Español
Inicio Proyectos con alumnos Prototipo de un Diccionario interactivo del léxico español - Diccionario TIP

Prototipo de un Diccionario interactivo del léxico español - Diccionario TIP

Proyecto fin de carrera terminado en marzo de 2012

Autora: Angélica Díaz Jiménez

Tutor: Francisco Javier Carreras Riudavets
Cotutora: María Dolores Afonso Suárez
Cotutor: Yeray Rodríguez Domínguez

Haz click aquí para acceder al Diccionario TIP

Los diccionarios en papel, actualmente en desuso, por el alto coste de actualización y publicación dejaron paso a los diccionarios digitalizados a finales de los años ochenta. Estos diccionarios permiten una flexibilidad mayor que los diccionarios en papel impreso al incorporar herramientas de búsqueda tanto en las entradas como en los artículos: exacta, aproximada, en los significados,… También se permite ordenar las entradas alfabéticamente, establecer algunos filtraros, etc. Pero, en realidad, son una digitalización de los diccionarios impresos. Aún así, la digitalización de la información contenida en los diccionarios impresos ha supuesto un notable avance para los lexicógrafos y usuarios de dichos recursos en todos los idiomas.

Después de los diccionarios digitalizados aparecen los diccionarios electrónicos en Internet. Progresivamente, estos nuevos diccionarios han evolucionado y se han convertido en aplicaciones informáticas que integran una base de datos léxica, un conjunto de herramientas para su consulta, visualización en un entorno atractivo y fácil utilización. Sin embargo, la evolución es constante y aún queda mucho por integrar desde el punto de vista léxico, de forma que el siguiente paso sería crear recursos informáticos que manejen a petición del usuario fuentes de conocimiento léxico que le ayuden en cualquier tarea relativa al procesamiento del lenguaje natural: lexicografía teórica, traducción automática, sinonimia, significados, ortografía, y conjugación entre otros.

El presente proyecto contempla la creación de un sistema de información y de una plataforma gráfica interactiva de acceso. El sistema de información almacenará el léxico español y sus relaciones: formas canónicas, categorías gramaticales, flexión nominal, apreciación, derivación, etimología, antigua o desusada, conjugación verbal, sufijación, prefijación, parasíntesis, relaciones morfoléxicas, sinonimia, regímenes preposicionales, clasificación semántica, acepciones y ejemplos. La información léxica será accesible desde Internet mediante una plataforma gráfica. Este diccionario refleja las relaciones que existen en la lengua española entre las distintas características contempladas, así como la gran cantidad de excepciones e irregularidades de nuestra lengua en los aspectos recogidos.
Dada la complejidad del sistema lingüístico español, es necesario el desarrollo de un sistema capaz de almacenar la información de una forma ordenada, simple y a la vez estructurada, y por otro lado, es necesaria una plataforma gráfica y amigable en Internet que permita el acceso fácil a dicha información, manteniendo visible las relaciones que existen entre los distintos elementos de la lengua española.

El diccionario interactivo pretende ser un prototipo de los futuros repertorios lexicográficos electrónicos de la lengua española. Actualmente, los diccionarios electrónicos son una adaptación ligeramente mejorada de la tradicional versión en papel, por lo que no aprovechan suficientemente la potencialidad que las nuevas tecnologías de la información poseen. Es importante, para el conocimiento y aprendizaje de una lengua, no sólo tener acceso a información específica de la misma: significados, sinónimos, flexiones, conjugación,… sino conocer cómo y con quién se relaciona cada información específica dentro del sistema lingüístico español. El elemento principal de relación será la palabra, la cual en función de su contextualización en la lengua española tendrá relaciones con otras palabras a través de conceptos lingüísticos (sinónimo de, se usa con la preposición,…). Evidentemente, toda la información que se pretende incluir en el diccionario interactivo es accesible en actuales repertorios específicos existentes sobre el tema, sin embargo, no existe un diccionario genérico que aglutine, en uno solo, las distintas características de la lengua asociadas a las palabras. Todo ello, considerando el amplio espectro de irregularidades de la lengua española.

Con este sistema se pretende dar un paso más en la evolución de los diccionarios electrónicos al integrar de manera eficiente aspectos muy relevantes de la lengua española. El desarrollo tecnológico y científico permite abordar la construcción de verdaderos diccionarios electrónicos, entendidos como almacenes de conocimiento léxico de una o varias lenguas que pueden ser consultados “inteligentemente” por usuarios y máquinas. Sin ánimo de ser ambiciosos y siendo consciente de la dificultad que entraña este proyecto y de sus posibles investigaciones futuras, se propone la creación de un prototipo de diccionario electrónico con los siguientes objetivos:

  • Definir un modelo de datos relacional, sin ambigüedades, capaz de almacenar toda la información. El modelo debe contemplar las distintas entidades, las relaciones de consistencia, integridad referencial, validaciones, etc.
  • Diseñar y desarrollar una interfaz gráfica de acceso a la información léxica, sencilla y de fácil manejabilidad, que tenga en cuenta las relaciones entre los distintos elementos que integran la información léxica. Esta interfaz gráfica debe ser compatible con los navegadores actuales, de tal forma, que se acceda a la información a través de Internet.
  • Crear un diccionario electrónico que integre repertorios lexicográficos de distinto ámbito lingüístico ―diccionario de significados, diccionario de sinónimos, diccionario ideológico,…―, junto a diversa información lingüística relevante: morfología, etimología, regímenes preposicionales, relaciones morfoléxicas,…