AYUDA

Omitir vínculos de navegación.
1. ¿QUÉ ES PARAMTEXT TIP?
ParamText TIP es una aplicación web destinada a la parametrización morfológica de textos, un conjunto de cálculos estadísticos basados en las características morfológicas del texto cuyos resultados se representan mediante la utilización de tablas y gráficas. Estos resultados permiten analizar la estructura del escrito desde el punto de vista morfológico y facilitan la comparación entre diferentes documentos.

2. ¿CÓMO PARAMETRIZAR UN DOCUMENTO?
La aplicación es muy sencilla de utilizar, sólo se necesita un documento cuyo tamaño y formato cumpla los requisitos que se establecen en la página de inicio de la aplicación (TXT, DOC, DOCX y PDF) y seguir los siguientes pasos:

1. Enviar archivo

En la sección habilitada para el envío de archivos, hacer clic en el botón "Examinar" para abrir la ventana de exploración de documentos. Buscar el archivo deseado y hacer doble clic sobre él. Automáticamente se iniciará el envío del archivo a nuestros servidores.

Una vez que el archivo haya sido recibido en nuestro sistema, se mostrará un cuadro con la información básica del fichero. En caso de querer cambiar el documento enviado, repita el proceso con el nuevo fichero. Si el archivo seleccionado no cumple los requisitos establecidos, se indicará mediante un aviso.

2. Seleccionar lista de palabras vacías (opcional)

El siguiente paso antes de comenzar el proceso de parametrización es seleccionar el tipo de lista de palabras vacías a utilizar. Dispone de dos opciones, utilizar la lista por defecto de nuestra aplicación, o bien enviar su propio listado de palabras vacías

Si no comprende muy bien la utilidad de esta opción, no se preocupe, deje marcada la opción por defecto. Más adelante encontrará un apartado en el que se explica detalladamente en qué consisten las palabras vacías.

3. Iniciar la parametrización

Por último, sólo tiene que hacer clic sobre el botón "Parametrizar" y el sistema comenzará a procesar su documento. Puesto que este proceso puede llegar a durar minutos en función de las características del fichero enviado y del estado en el que se encuentre la red, se le ruega que tenga paciencia. No obstante, puede ver el estado en el que se encuentra el proceso mediante la barra de progreso que se proporciona, pudiendo cancelarlo en cualquier momento mediante la utilización del botón "Cancelar".

Para garantizar un flujo de ejecución correcto, evite utilizar la aplicación durante el tiempo en que se está realizando la parametrización de su archivo, en caso contrario, el sistema cancelará el proceso en curso.

Una vez finalizada la parametrización del documento, no será mostrado ningún mensaje, sino que será automáticamente redirigido a una de las páginas de resultados.

3. PARTES DE LA APLICACIÓN
A continuación se detallan las principales partes del sistema:

1. Menú

Permite acceder a las opciones y resultados que proporciona la aplicación.

2. Sección actual

Muestra el nombre de la sección (resultado) que se está visualizando.

3. Documentos actuales

Indica el nombre del fichero y lista de palabras vacías actuales. Permite saber en todo momento a que documento se corresponden los resultados mostrados.

4. Bloque principal

Es la sección más importante, ya que en ella se presentarán los resultados solicitados.

4. DISTRIBUCIÓN DEL MENÚ
El menú ha sido dividido en varias secciones para clasificar los resultados por categorías y facilitar así su localización. A continuación, se comenta el tipo de resultados que podrá consultar en cada una de sus secciones:

1. Inicio

Permite acceder a la página de inicio de la aplicación.

2. Métrica

Ofrece los resultados relacionados con la métrica del documento analizado. Podrá consultar por ejemplo: el número de palabras, el número de palabras diferentes, el número de oraciones, el número de párrafos, la cantidad de oraciones por párrafo, o bien el promedio, moda y mediana de palabras por oración o párrafo entre otros muchos datos.

3. Morfología

Proporciona una amplia información sobre las características morfológicas del texto. Podrá consultar por ejemplo: el número de palabras que pertenecen a cada categoría gramatical (verbos, sustantivos, adjetivos,…), el número de palabras según su flexión, o el promedio, moda y mediana de palabras de una determinada categoría gramatical que hay por oración o párrafo.

4. Vocabulario

Permite consultar la lista de palabras que aparecen en el texto analizado. Además, para cada una de ellas podrá visualizar su frecuencia de aparición, la posición del texto en la que aparece por primera vez o su información morfológica.

5. Palabras vacías

Esta sección permite cambiar la lista de palabras vacías a utilizar. También proporciona la posibilidad de descargar la lista de palabras vacías por defecto o la utilizada por el usuario en la última parametrización realizada.

6. Ayuda

Permite acceder al documento de ayuda online de nuestra aplicación.

5. PALABRAS VACÍAS
Las palabras vacías (en inglés, stopwords) son aquellas que no tienen un significado propio y que por tanto no aportan ningún contenido semántico al texto. Es por ello que en muchas actividades relacionadas con el procesamiento de textos, este tipo de palabras tengan un tratamiento particular. Un ejemplo, son los motores de búsquedas, que descartan este tipo de palabras para ofrecer mejores resultados a los usuarios.

En nuestro caso, hemos decidido ofrecer los resultados de la sección Métrica desde dos perspectivas diferentes:

1. Con palabras vacías

Los resultados se ofrecen teniendo en cuenta todas las palabras del texto, por tanto las palabras vacías son contabilizadas.

2. Sin palabras vacías

Los resultados se ofrecen sin tener en cuenta las palabras vacías, estas no serán consideradas y por tanto, tampoco contabilizadas.

ParamText TIP utiliza una lista de palabras vacías por defecto. En ella se han incluido las palabras vacías más frecuentes del español. Sin embargo, puesto que no existe un estándar que defina con exactitud cuáles son las palabras vacías del español, se ofrece también la posibilidad de que sea el usuario quien establezca su propia lista de palabras vacías.

Esta opción permitirá a los usuarios obtener resultados más precisos, ya que podrán descartar todas aquellas palabras que deseen. En la sección del menú "Palabras vacías", encontrará las pautas a seguir para poder confeccionar y utilizar su propio listado.

6. FORMATO DE LOS RESULTADOS
Los resultados proporcionados por ParamText TIP, pueden ser visualizados en dos formatos diferentes. Uno de ellos es en forma de gráfica, que es el formato mostrado por defecto. La otra posibilidad, consiste en visualizar la información en modo tabular. Puede alternar entre ambas vistas mediante la utilización de las pestañas habilitadas para ello.


Gráficas

Permiten visualizar los datos que conforman el resultado seleccionado en formato de gráfica de barras. Para facilitar la interpretación de la información mostrada, cada gráfica va acompañada de una leyenda y los títulos de sus correspondientes ejes.

En la parte inferior de la gráfica, encontrará un conjunto de opciones que permitirán cambiar ciertos parámetros de visualización. Las opciones disponibles son:

1. Zoom

Permite seleccionar un rango de valores específicos del eje X para visualizarlo con más detalle.

2. Mostrar serie

Por defecto, para facilitar la comparación de los resultados, las gráficas muestran simultáneamente los datos "Con palabras vacías" y "Sin palabras vacías". Esta opción permite restringir la visualización de la gráfica a una única serie.

3. 3D

Permite cambiar el modo de visualización de la gráfica a tres dimensiones.

4. Tooltip

Permite conocer los valores de los ejes X e Y que conforman cada una de las barras de la gráfica. Para ello, sólo hay que pasar el cursor del ratón sobre alguna de las barras y se mostrará la información correspondiente.



Tablas

Ofrecen la misma información que las gráficas pero en formato tabular. Puesto que la mayor parte de los resultados implican el manejo de un gran volumen de datos, se ha decidido habilitar la paginación y ordenación por columnas de las tablas, facilitando así, la búsqueda y legibilidad de los datos. Además, mediante la utilización del botón "Exportar" que encontrará bajo cada una de ellas, podrá exportar el contenido de la tabla a un archivo de Excel.



Otra de las opciones disponibles cuando se consulta un resultado, ya sea en formato gráfico o tabular, es la visualización de un pequeño informe, que se pliega y despliega al hacer clic con el ratón sobre los datos del documento actual.

Este pequeño informe, contiene únicamente algunos de los resultados de los informes principales, que pueden ser útiles al usuario en función del resultado que está visualizando. Por ejemplo, en las imágenes inferiores, en las que el usuario está consultando como se distribuyen las palabras del texto según su tamaño en caracteres, el informe desplegable muestra como datos relevantes, el total de palabras y el total caracteres del texto. De esta manera, si el usuario deseara consultar esta información, no tendría que irla a buscar a la página del informe principal, sino que podría consultarla desde la misma página en la que se encuentra.

7. RESULTADOS PROPORCIONADOS


En este apartado se explican las características y utilidad de los principales resultados proporcionados por ParamText TIP:


Informe métrica

En esta sección se proporcionan resultados como:

- Número total de: caracteres, palabras, palabras diferentes, oraciones o párrafos.

- Promedio, desviación típica, moda y mediana de: caracteres por palabra, caracteres por oración, caracteres por párrafo, palabras por oración, palabras por párrafo u oraciones por párrafo.

Todos estos datos permiten hacerse una idea de cómo se estructura el texto en función de sus partes, como por ejemplo, si predominan palabras u oraciones cortas o largas. Estos resultados, al ser de carácter unitario, sólo se representan en formato tabular. Esta sección está disponible en: "Métrica → Informe".


Distribución de las palabras según la cantidad de caracteres

Muestra cómo se distribuyen las palabras del texto según la cantidad de caracteres. Es decir, indica el número de palabras cuya longitud en caracteres es N, donde N = {1, 2, 3,…}. Permite saber si las palabras del texto se caracterizan por ser pequeñas o grandes, e incluso detectar la cantidad de palabras que superan un determinado tamaño. Este resultado está disponible en: "Métrica → Gráficas → Palabras de N caracteres".


Distribución de las oraciones según la cantidad de caracteres

Muestra cómo se distribuyen las oraciones del texto según la cantidad de caracteres. Es decir, indica el número de oraciones cuya longitud en caracteres es N, donde N = {1, 2, 3,…}. Este resultado está disponible en: "Métrica → Gráficas → Oraciones de N caracteres".


Distribución de los párrafos según la cantidad de caracteres

Muestra cómo se distribuyen los párrafos del texto según la cantidad de caracteres. Es decir, indica el número de párrafos cuya longitud en caracteres es N, donde N = {1, 2, 3,…}. Este resultado está disponible en: "Métrica → Gráficas → Párrafos de N caracteres".


Distribución de las oraciones según la cantidad de palabras

Muestra cómo se distribuyen las oraciones del texto según la cantidad de palabras. Es decir, indica el número de oraciones que están formadas por N palabras, donde N = {1, 2, 3,…}. Este resultado está disponible en: "Métrica → Gráficas → Oraciones de N palabras".


Distribución de los párrafos según la cantidad de palabras

Muestra cómo se distribuyen los párrafos del texto según la cantidad de palabras. Es decir, indica el número de párrafos que están formados por N palabras, donde N = {1, 2, 3,…}. Este resultado está disponible en: "Métrica → Gráficas → Párrafos de N palabras".


Distribución de los párrafos según la cantidad de oraciones

Muestra cómo se distribuyen los párrafos del texto según la cantidad de oraciones. Es decir, indica el número de párrafos que están formados por N oraciones, donde N = {1, 2, 3,…}. Al consultar este resultado, puede surgir la duda de por qué se proporcionan los datos tanto desde el punto de vista "Con palabras vacías" como "Sin palabras vacías", cuando se supone que el número de oraciones del texto siempre son las mismas. La razón es muy sencilla, aunque es bastante raro, puede suceder que una oración esté formada únicamente por palabras vacías, por tanto, desde el punto de vista "Sin palabras vacías", el texto tendrá una oración menos. Este resultado está disponible en: "Métrica → Gráficas → Párrafos de N oraciones".


Distribución por frecuencia

Indica cómo se distribuyen las palabras del texto en función del número de veces que aparecen en él. Permite saber cuantas palabras del texto aparecen con poca o mucha frecuencia. Este resultado está disponible en: "Métrica → Gráficas → Distribución por frecuencia".


Distribución por centro de gravedad

El centro de gravedad de una palabra es la media de posiciones en las que aparece dicha palabra en el texto y por tanto proporciona una idea de la zona del texto en la que más o menos aparece dicha palabra con más frecuencia. Este resultado muestra como se distribuyen las palabras según su centro de gravedad y permite saber, por tanto, si las palabras del texto se concentran especialmente en alguna zona particular del texto. Este resultado está disponible en: "Métrica → Gráficas → Distribución por centro de gravedad".


Distribución por primera aparición

Este resultado muestra como se distribuyen las palabras según la posición de su primera aparición en el texto, por tanto permite detectar si a medida que avanza el texto aparecen nuevas palabras o se repiten las ya utilizadas. Este resultado está disponible en: "Métrica → Gráficas → Distribución por primera aparición".


Distribución en el corpus

Este resultado permite saber con qué frecuencia se utilizan en el español las palabras del texto. Después de haber realizado un estudio sobre la frecuencia de aparición de cada una de las palabras de un corpus, formado por 320575144 palabras, de las cuales, 309734 eran diferentes, se ha decidido dividir las palabras del texto en seis grupos:

- Frecuencia muy alta

Son las palabras del texto cuya frecuencia en el corpus es superior o igual a 30000. Este tramo lo componen 939 palabras del corpus.

- Frecuencia alta

Son las palabras del texto cuya frecuencia en el corpus es inferior a 30000, pero superior o igual a 2000. Este tramo lo componen 10087 palabras del corpus.

- Frecuencia media

Son las palabras del texto cuya frecuencia en el corpus es inferior a 2000, pero superior o igual a 300. Este tramo lo componen 26295 palabras del corpus.

- Frecuencia baja

Son las palabras del texto cuya frecuencia en el corpus es inferior a 300, pero superior o igual a 20. Este tramo lo componen 80264 palabras del corpus.

- Frecuencia muy baja

Son las palabras del texto cuya frecuencia en el corpus es inferior a 20, pero superior a cero. Este tramo lo componen 192149 palabras del corpus.

- Frecuencia cero

Son las palabras del texto que no aparecen ninguna vez en el corpus.

Por tanto, este resultado permite saber en base al corpus utilizado, qué cantidad de palabras del texto analizado, se consideran de uso frecuente o poco frecuente en el español. Este resultado está disponible en: "Métrica → Gráficas → Distribución en el corpus".


Vocabulario

Esta sección permite ver el listado de palabras que aparecen en el texto. Además, para cada una de ellas, se muestra la siguiente información:

- Sílabas de la palabra

Se muestran las sílabas separadas por guiones y entre corchets se marca la sílaba tónica.

- Frecuencia en el texto

Es el número de veces que aparece la palabra en el texto.

- Primera aparición

Es la posición del texto en la que aparece la palabra por primera vez.

- Centro de gravedad

Como se explicó anteriormente, el centro de gravedad de una palabra es la media de posiciones en las que aparece una palabra en el texto y por tanto nos da una idea de la zona del texto en la que más o menos aparece dicha palabra con más frecuencia.

- Frecuencia en el corpus

Es el número de veces que aparece la palabra en el corpus analizado, cuyas características fueron explicadas en el apartado anterior. Este dato permite saber, si la palabra es utilizada o no con frecuencia en el español.

- Palabra invertida

La palabra escrita al revés. Esta columna permite ordenar por el final de las palabras.

Otra característica importante de esta sección, es que proporciona la posibilidad de visualizar la información morfológica de cada una de las palabras. Para ello sólo hay que situar el cursor del ratón sobre la palabra cuya información morfológica se desea visualizar. Recuerde que debido a las características del lenguaje español, una palabra puede disponer de varias interpretaciones morfológicas. Este resultado está disponible en: "Vocabulario".


Informe morfología

En esta sección se proporcionan resultados como:

- Número total de palabras por categoría gramatical (verbos, sustantivos, adjetivo, adverbios, pronombres, preposiciones, artículos,…).

- Promedio, desviación típica, moda y mediana por oración y párrafo de: verbos por oración, verbos por párrafo, sustantivos por oración, sustantivos por párrafo, adjetivos por oración, adjetivos por párrafo,…

- Número total de palabras por flexión verbal (infinitivos, gerundios,…).

- Número total de palabras por flexión no verbal (singular, plural,…).

Todos estos datos permiten obtener una idea de cómo está estructurado el texto en función de sus características morfológicas, pudiendo determinar qué categorías gramaticales o flexiones predominan en él. Estos resultados al ser de carácter unitario sólo se representan en formato tabular.

Otro tipo de resultado que es posible visualizar desde esta sección, es obtener una lista de las palabras del texto que pertenecen a una determinada categoría gramatical o flexión. Para ello, sólo debe dirigirse a la tabla correspondiente y hacer clic con el ratón sobre la categoría gramatical o flexión deseada (Figuras 17.25 y 17.26). Al igual que en la sección "Vocabulario", situando el cursor del ratón sobre cualquiera de las palabras de la lista resultante, puede acceder a su información morfológica. Este sección está disponible en: "Morfología → Informe".


Palabras no reconocidas

Permite examinar la lista de palabras que no han sido reconocidas morfológicamente por la aplicación. Esta aplicación actualmente sólo funciona para textos en español, por lo que si el texto contiene alguna palabra en otro idioma, también aparecerá en esta lista. Este resultado está disponible en: "Morfología → Palabras no reconocidas".


Categorías gramaticales

Indica cómo se distribuyen las palabras del texto según su categoría gramatical (verbos, sustantivos, adjetivos,…), permitiendo determinar qué tipos de categorías gramaticales predominan o no en el texto. Este resultado está disponible en: "Morfología → Gráficas → Categorías gramaticales".


Flexiones verbales

Establece cómo se distribuyen las palabras del texto según su flexión verbal (infinitivo, gerundio, presente de indicativo,…), permitiendo reconocer los tiempos verbales más y menos utilizados en el texto. Este resultado está disponible en: "Morfología → Gráficas → Flexiones verbales".


Flexiones no verbales

Indica cómo se distribuyen las palabras del texto según su flexión no verbal (palabras en masculino, femenino, singular, plural,…), permitiendo observar el género y número, más y menos frecuentes en el texto. Este resultado está disponible en: "Morfología → Gráficas → Flexiones no verbales".


Distribución de las oraciones y párrafos según la cantidad de verbos

Proporciona el número de oraciones o párrafos del texto que contienen N verbos. Este resultado está disponible en: "Morfología → Categoría gramatical → Verbos".


Distribución de las oraciones y párrafos según la cantidad de sustantivos

Proporciona el número de oraciones o párrafos del texto que contienen N sustantivos. Este resultado está disponible en: "Morfología → Categoría gramatical → Sustantivos".


Distribución de las oraciones y párrafos según la cantidad de adjetivos

Proporciona el número de oraciones o párrafos del texto que contienen N adjetivos. Este resultado está disponible en: "Morfología → Categoría gramatical → Adjetivos".


Distribución de las oraciones y párrafos según la cantidad de adverbios

Proporciona el número de oraciones o párrafos del texto que contienen N adverbios. Este resultado está disponible en: "Morfología → Categoría gramatical → Adverbios".


Distribución de las oraciones y párrafos según la cantidad de pronombres

Proporciona el número de oraciones o párrafos del texto que contienen N pronombres. Este resultado está disponible en: "Morfología → Categoría gramatical → Pronombres".


Distribución de las oraciones y párrafos según la cantidad de preposiciones

Proporciona el número de oraciones o párrafos del texto que contienen N preposiciones. Este resultado está disponible en: "Morfología → Categoría gramatical → Preposiciones".


Distribución de las oraciones y párrafos según la cantidad de artículos

Proporciona el número de oraciones o párrafos del texto que contienen N artículos. Este resultado está disponible en: "Morfología → Categoría gramatical → Artículos".


Distribución de las oraciones y párrafos según la cantidad de conjunciones

Proporciona el número de oraciones o párrafos del texto que contienen N conjunciones. Este resultado está disponible en: "Morfología → Categoría gramatical → Conjunciones".

8. POLÍTICA DE PRIVACIDAD


ParamText TIP garantiza que los archivos recibidos:

- No serán examinados o modificados en ningún momento.

- No serán facilitados a terceras partes.

- Serán eliminados de nuestros servidores tras un período de inactividad del usuario.

9. AUTORES


ParamText Tip es el Proyecto Fin de Carrera de Juan Carlos Santana Herrera en la titulación de Ingeniería Informática. Este proyecto fue dirigido por Francisco Javier Carreras Riudavets y contó con la participación en el desarrollo de las librerías de lematización y silabeo de las palabras con Zenón Hernández Figueroa y Gustavo Rodríguez Rodríguez.