Análisis léxico robusto

Otero Pombo, Juan

Análisis léxico robusto

Otero Pombo, Juan

Dirigida por:

Jorge Graña Gil Director
Manuel Vilares Ferro Director/a

Universidad de defensa: Universidade de Vigo

Fecha de defensa: 04 de junio de 2009

Tribunal:

Guillermo Rojo Sánchez Presidente/a
Víctor Manuel Darriba Bilbao Secretario/a
Jean-Éric Pin Vocal
Leo Wanner Vocal
Gabriel Pereira Lopes Vocal

Tipo: Tesis

Teseo: 292509 DIALNET

Resumen

Esta tesis se encuadra en el marco del Procesamiento del Lenguaje Natural, área de la ciencia y la tecnología que se encarga del tratamiento automático del lenguaje natural o humano. En particular, involucra a aquellas tareas relativas al análisis léxico, la corrección ortográfica, la etiquetación morfosintáctica y la aplicación de éstas a la Recuperación de Información. En este contexto, el trabajo se ha centrado en el desarrollo de un nuevo método regional e corrección ortográfica sobre Autómatas Finitos y su integración en una herramienta de etiquetación morfosintáctica, con el fin de sacar provecho de la información contextual embebida en un Modelo Oculto de Markov subyacente. De este modo, se ha desarrollado una herramienta de análisis léxico robusto capaz de manejar los tres tipos de ambigüedades que pueden surgir en esta frase: la ambigüedad morfosintáctica, que surge cuando a una unidad léxica le pueden ser asignadas diferentes etiquetas morfosintácticas; la ambigüedad segmental, que aparece cuando es posible dividir el texto en unidades léxicas de más de un modo y la ambigüedad léxica, que es la que introducen los métodos de corrección ortográfica cuando ofrecen varias alternativas de corrección. Para estimar la viabilidad del método desarrollado se han realizado diversos experimentos basados en medidas de precisión, cobertura y rendimiento obtenidos por el método regional con modelos anteriores a nivel global. Estas primeras pruebas se realizaron sobre palabras aisladas, es decir, sin tener en cuenta el contexto en el que éstas aparecían. Los resultados obtenidos en cuanto a rendimiento fueron realmente satisfactorios, ya que el método regional superaba con claridad al global. En lo que respecta a la cobertura, el método regional ofrece en término medio un menor número de alternativas, lo que provoca un ligero descenso en la precisión. Además, se ha comprobado si la pérdida de precisión del método regional podía ser compensada en un entorno de corrección contextual, ya que el hecho de que éste devolviese un menor número de alternativas podría repercutir de forma positiva en la precisión del sistema global. Los experimentos realizados no han corroborado esta hipótesis, pero han servido para evidenciar que el incremento del rendimiento del método regional en términos de espacio y tiempo respecto al global era aún mayor cuando se aplicaban estas técnicas en un entorno de corrección contextual. Esto era debido a que, además de resultar más eficiente desde el punto de vista computacional, el algoritmo regional ofrece un menor número de alternativas de corrección. Finalmente, se ha intentado verificar la utilidad práctica del modelo en un entorno de Recuperación de Información en el que las consultas presentan errores ortográficos. Para ello se han comparado tres métodos: Expansión de las consultas con todas las alternativas de corrección; aplicación del corrector contextual para determinar cuál de las alternativas obtenidas encaja mejor en el contexto de la palábra errónea; y uso de n-gramas tanto para la indexación como para la recuperación. El resultado de estas pruebas confirma que la aplicación de técnicas de corrección ortográfica mejora significativamente los resultados en presencia de consultas corruptas. Por otra parte, la utilización de n-gramas resulta ser una técnica muy robusta y que presenta la ventaja de que no requiere ningún recurso lingüístico extra.