Fusión de modelos vectoriales y contextuales para la recuperación de información

  1. Billhardt, Holger
Dirigida por:
  1. Daniel Borrajo Millán Director/a
  2. Víctor Manuel Maojo García Director/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 22 de abril de 2003

Tribunal:
  1. Juan Pazos Sierra Presidente/a
  2. Asunción Gómez Pérez Secretario/a
  3. Miguel Delgado Calvo-Flores Vocal
  4. José Luis Maté Hernández Vocal
  5. Bernardino Arcay Vocal

Tipo: Tesis

Resumen

El creciente volumen de documentos almacenados en ordenadores en formato electrónico promete un cambio importante en la forma de buscar cualquier tipo de información. Este cambio ya se está produciendo, en parte debido a Internet, pero también por la existencia de cada vez más sistemas cuyo fin es proporcionar información de diferentes tipos y que se utilizan de forma creciente en prácticamente todas las esferas de la vida diaria. La "sociedad de la información" presenta nuevas posibilidades, pero también nuevos retos para la informática. Es necesario superar las dificultades relacionadas con la búsqueda de información relevante sobre cualquier tema, sea la fuente Internet u otro "almacén electrónico" y, sea ésta textual, multimedia o de cualquier otro tipo. La presente tesis tiene por objetivo contribuir a superar estas dificultades y para ello analiza nuevos métodos para la recuperación de documentos de texto. En la primera parte se presenta un nuevo modelo para la recuperación de información textual: el Modelo de Vectores de Contexto (MVC). Este modelo utiliza una representación semánticamente enriquecida de los documentos y preguntas y, por tanto, la estimación de la relevancia de un documento para una pregunta se basa en una comparación de los contenidos conceptuales de estas entidades. El modelo es evaluado mediante una serie de experimentos con cuatro colecciones de prueba (MEDLARS, CRANFIELD, CISI y CACM) en los que se comparan los resultados de distintas variantes del MVC con el Modelo Vectorial (MV) clásico. No obstante, una de las principales conclusiones de los experimentos es que, aunque existen variantes del MVC que incrementan la efectividad respecto al MV de forma estadísticamente significativa en las cuatro colecciones, en cada colección hay otra variante que logra los mejores resultados. La segunda parte de esta tesis examina el comportamiento de estrategias de recuperación que combinan o fusionan variantes (expertos) del MVC y del modelo vectorial clásico. Un problema común de los métodos de fusión de expertos de recuperación es la selección, tanto de los expertos a combinar, como de la función de combinación. En la mayoría de los estudios, los expertos son "fijos" o preseleccionados mediante algunas heurísticas. Ello implica que sólo se considera un número reducido de posibles combinaciones. En este trabajo, se presenta un método que utiliza algoritmos genéticos para encontrar, de forma automática, una estrategia que sea apropiada para un determinado entorno de recuperación. El método se evalúa mediante experimentos con las cuatro colecciones de prueba citadas anteriormente. Las conclusiones principales son las siguientes: 1.- Una combinación de expertos puede ser más efectiva que los métodos individuales. 2.- La adaptación de las estrategias de recuperación a cada colección es mejor que el uso de estrategias "fijas". 3.- Los algoritmos genéticos son apropiados para el encontrar estrategias de recuperación (sub)óptimas.