Catalogador de neologismos

Accede a CANeo TIP

CANeo TIP es una herramienta adaptada a la sociedad de la información para catalogar neologismos sufijales, prefijales y parasintéticos, que ayudará a los profesionales de la información, como escritores de prensa, libros, revistas, etc. y por su puesto a los lexicógrafos. El objetivo principal de CANeo TIP es detectar la ráiz del neologismo y componer la palabra primitiva de la que proviente. Esta palabara primitiva será el elmento indispensable para proceder con el análisis. La palabra primitiva obtenida en cada posible resultado deberá ser verificada usando el servicio de lematización de TIP, detectando su categoría gramatical y así obtener una estimación sobre la categoría gramatical del neologismo.

Resultados

Los resultados obtenidos en CANeo tienen la siguiente forma:

 

Smiley face

Cómo funciona el análisis

El sistema CANeo TIP es capaz de detectar los prefijos y los sufijos de un posible neologismo y aplicar las diferentes reglas del español para conseguir un conjunto de palabras primitivas; es decir palabras de las que puede provenir. Para catalogar el neologismo es necesario primero catalogar las palabras primitivas. Para ello utilizamos el servicio de lematización. Realizando consultas a este servicio, obtendremos información acerca de la categoría gramatical de una determinada palabra primitiva, además de información muy valiosa para realizar la catalogación y valoración de los resultados. Utilizando la información estadística recopilada en el estudio, y partiendo de la categoría gramatical de la primitiva, se realiza una estimación a cerca de la categoría gramatical del neologismo.

El sistema CANeo TIP

La aplicación CANeo TIP es una aplicación web escrita en C# y ASP.NET utilizando el patrón MVC de la Microsoft .NET Framework 3.5. Esta aplicación utiliza fuentes en XML para contener la información referente a los afijos utilizados, estadísticas, etc. Además, se ha diseñado implementando diversos patrones de diseño, como MVC, Singleton, etc., con el fin de solucionar diversos problemas del diseño. Esta aplicación depende de los servidores del grupo TIP - Text & Information Processing, usando el servicio de lematización del grupo para su funcionamiento.

Metodología

Esta aplicación se basa en el estudio de unas setenta mil palabras derivadas de palabras primitivas que reúne, entre otras cosas, información muy valiosa referente a la utilización de los afijos más productivos del idioma español, sus significados, información estadística de frecuencias de utilización, etc. De manera general, podemos definir la metodología de trabajo para localizar posibles reglas a aplicar, para obtener la palabra primitiva de la que proviene una palabra derivada, de la siguiente manera:

* Análisis sufijal: Se revisa el conjunto de reglas sufijales. Se buscarán reglas que puedan encajar con la terminación sufijal y se incluirán anotaciones acerca de las estadísticas de uso, significados, reglas de corte, etc.

* Análisis prefijal: Se revisa el conjunto de reglas prefijales. Se buscarán reglas que puedan encajar con la terminación prefijal y se incluirán anotaciones acerca de las estadísticas de uso, significados, reglas de corte, etc.

* Se revisarán sustituciones de raíces irregulares: Se anotarán las transformaciones de raíces irregulares en pares que incluyan la raíz de origen y la raíz transformada.

* Se revisan reglas ortográficas: Reglas tales como diptongos, hiatos y otras reglas propias del español.

* Análisis parasintético: Una parasíntesis es la formación de palabras por medio de una combinación de afijos, normalmente pares de prefijo-sufijo. Algunas de estas parasíntesis describen una relación habitual y deben ser tratadas de manera diferente. Del conjunto de sufijos y prefijos estudiados, se reunirán y anotarán estadísticas de uso de las relaciones que existan entre ellos.

* Tratamiento de tildes: Existe un conjunto de reglas de acentuación que también son consideradas en este trabajo.

Copyright

CANeo Tip es el Proyecto Fin de Carrera de Raúl Jiménez Estupiñán en la titulación de Ingeniería Informática. Este proyecto fue dirigido por Francisco Javier Carreras Riudavets y contó con la participación en el desarrollo de las librerías de lematización y silabeo de las palabras con Zenón Hernández Figueroa y Gustavo Rodríguez Rodríguez.

 


En caso de citar este artículo, por favor use la siguiente referencia:

Carreras-Riudavets, F.; Jiménez-Estupiñán, R.; Hernández-Figueroa, Z.; Rodríguez-Rodríguez, G. (2012). Catalogador automático de neologismos sufijales y prefijales - CANeo TIP. Disponible en http://tip.dis.ulpgc.es