Aplicaciones del procesamiento del lenguaje natural en la recuperación de información en español

  1. Vilares, Jesús
Dirigida por:
  1. Miguel Á. Alonso Director
  2. José Luis Freire Nistal Director/a

Universidad de defensa: Universidade da Coruña

Fecha de defensa: 20 de mayo de 2005

Tribunal:
  1. Gabriel Pereira Lopes Presidente/a
  2. Jorge Graña Gil Secretario
  3. Irving Tait John Vocal
  4. de la Clergerie Eric Vocal
  5. Javier Martín Vide Vocal
Departamento:
  1. Ciencias de la Computación y Tecnologías de la Información

Tipo: Tesis

Teseo: 128612 DIALNET lock_openRUC editor

Resumen

La relación entre Procesamiento del Lenguaje Natural y Recuperación de Información viene dada por la variación lingüística del idioma, es decir, cómo un mismo concepto se puede expresar de formas diferentes mediante modificaciones en la expresión, constituyendo el principal problema en el ámbito de la Recuperación de Información, El objetivo de esta tesis es el desarrollo de tecnología de base para el Procesamiento del Lenguaje Natural y el estudio de la viabilidad de su aplicación en sistemas de Recuperación de Información sobre documentos en español. Si bien existen estudios similares para otras lenguas, con un claro dominio del inglés, el español ha quedado relegado frecuentemente a un segundo plano. Además, su mayor complejidad lingüística no permite una extrapolación inmediata de los resultados obtenidos para el inglés, demandando la realización de experimentos específicos. Sin embargo, hemos tenido que hacer frente a la carencia de recursos lingüísticos libremente accesibles para el español. Para ello se ha debido restringir la complejidad de las soluciones propuestas, centrándose en la utilización de información léxica, de obtención más sencilla. Además, para minimizar el coste computacional de cara a la aplicación en entornos prácticos, se ha hecho amplio uso de tecnología de estado finito. En este contexto se ha desarrollado, en primer lugar, un preprocesador avanzado de base lingüística para la tokenización y segmentación de textos. A nivel flexivo, se ha estudiado la utilización de la lematización en la normalización de términos simples. A nivel derivativo, se ha desarrollado una herramienta de generación automática de familias morfológicas - conjuntos de palabras ligadas derivativamente y que comparten la misma raiz - para su empleo en la normalización de términos simples.