Optimización física y lógica de consultas en mediadores de fuentes web
- Hidalgo Sanz, Justo
- Carlos Alberto Pan Bermúdez Director
- Víctor Carneiro Director
Universidad de defensa: Universidade da Coruña
Fecha de defensa: 05 de marzo de 2007
- Carlos Delgado Kloos Presidente/a
- Fidel Cacheda Secretario
- Luis E. Anido Rifón Vocal
- Francisco Valera Pintor Vocal
- Covadonga Rodrigo San Juan Vocal
Tipo: Tesis
Resumen
La integración de información distribuida es una de las áreas más importantes de la gestión de información debido a la gran cantidad y heterogeneidad de repositorios de datos con diferentes interfaces de acceso, protocolos de comunicación y estándares de representación, pero cuyos datos combinados enriquecen la información y conocimiento en empresas, instituciones y centros de investigación, Las fuentes semi-estructuradas y en especial los datos incrustados en páginas HTML procedentes de aplicaciones web, componen el conjunto de información pública más poblado en la actualidad, que además goza de popularidad y constante crecimiento. El enfoque más utilizado para la construcción de este tipo de soluciones es el de mediador, que se encarga de acceder a cada una de las fuentes de datos y combinar su salida de manera que provee una vista unificada de la información, de forma homogenea y estandarizada. Sin embargo, la optimización de las consultas sobre estos mediadores tiene un conjunto importante de desafíos y problemas cuando las fuentes a integrar son de tipo web, como la lentitud de acceso a través de la red, la ausencia de estadísticas de costes, o lo poco apropiado de algunas técnicas clásicas de optimización en estos casos. El objetivo principal de esta tesis doctoral es la elaboración de un conjunto de técnicas y algoritmos de optimización de consultas para mediadores de integración de fuentes web. Las cuatro contribuciones principales de este trabajo son las siguientes: (1) la utilización de un modelo basado en costes que resuelva la inadecuación de algunas estrategicas clásicas de optimización que no tienen en cuenta las restricciones en cuanto a capacidades de consulta de las fuentes web, así como la inexistencia de información acerca de la calidad de servicio de las comunicaciones y de los costes de procesamiento de las fuentes web; (2) la elección de un conjunto de parámetros de coste adecuados para tener en cuenta qu