Técnicas de mantenimiento automático de programas envoltorio para fuentes de datos web semiestructuradas

  1. Raposo, Juan
Supervised by:
  1. Fernando Bellas Permuy Director
  2. Carlos Alberto Pan Bermúdez Director

Defence university: Universidade da Coruña

Fecha de defensa: 20 July 2007

Committee:
  1. Joseba Iñaki Goirizelaia Ordorika Chair
  2. Víctor Carneiro Secretary
  3. Carmen Costilla Rodríguez Committee member
  4. Óscar Díaz García Committee member
  5. Vicente Luque Centeno Committee member
Department:
  1. Computer Science and Information Technologies

Type: Thesis

Teseo: 138777 DIALNET

Abstract

Una gran parte de la informática contenida en la web tiene una estructura latente, Por ejemplo, muchas fuentes web ofrecen formularios que permiten ejecutar consultas sobre una base de datos subyacente y devuelven los resultados obtenidos, codificándolos en HTML para su visualización en un navegador de Internet. A este tipo de fuentes suele denominárseles fuentes Web semi-estructuradas. Una tarea de gran interés para multitud de aplicaciones consiste en construir programas envoltorio o interfaz (wrappers) sobre este tipo de fuentes. Un programa envoltorio para una determinada fuente Web recibe como entrada una consulta emitida por una aplicación software sobre los datos de la fuente, expresada en algún lenguaje de consulta de información estructurada (e.g. algún subconjunto de SQL) El envoltorio es capaz de ejecutar automáticamente la consulta recibida en la fuente Web a través de una serie de secuencias de navegación automatizada y de extraer los resultados deseados de las páginas HTML para devolver a la aplicación llamante una lista de resultados estructurados como respuesta. En los últimos años se han desarrollado diversas técnicas para generar semi-automáticamente programas envoltorio. Sin embargo, las fuentes Web semi-estructuradas presentan un elevado nivel de autonomía, y tanto las interfaces de consulta como la manera de representar los resultados pueden cambiar sin previo aviso. Por lo tanto, sería de gran utilidad que el programa envoltorio fuese capaz de mantenerse automáticamente, detectando el cambio y regenerándose, sin intervención humana. El objetivo principal de esta tesis doctoral es abordar todos los aspectos involucrados en el mantenimiento automático de envoltorios sobre fuentes Web semi-estructuradas. Las cuatro contribuciones principales de este trabajo son las siguientes: (1) una arquitectura para la generación y el mantenimiento automático de programas envoltorio para fuentes Web, que tiene en cuenta todos los pa