Arquitectura optimizada para un motor de búsqueda web eficiente: crawling de contenido útil y actualizado

Prieto Álvarez, Victor Manuel

Arquitectura optimizada para un motor de búsqueda web eficientecrawling de contenido útil y actualizado

Prieto Álvarez, Victor Manuel

Dirigida por:

Fidel Cacheda Director
Manuel Álvarez Díaz Director

Universidad de defensa: Universidade da Coruña

Fecha de defensa: 20 de septiembre de 2013

Tribunal:

Luis E. Anido Rifón Presidente/a
Juan Raposo Secretario
Vassilis Plachouras Vocal
Rafael Corchuelo Gil Vocal
José Luis Oliveira Vocal

Departamento:

Ciencias de la Computación y Tecnologías de la Información

Tipo: Tesis

Teseo: 338297 DIALNET RUC editor

Resumen

La Web constituye el mayor repositorio de información jamás construido. Por este motivo se hace imprescindible la utilización de buscadores web que permitan localizar la información apropiada en cada momento. Uno de los módulos de un buscador es el formado por los crawlers, programas software que aprovechan la estructura basada en hipervínculos de la Web, para recorrerla y crear un repositorio con los recursos web sobre el que poder realizar búsquedas. Pero el recorrido de la Web presenta numerosos desafíos para los crawlers, entre los que destacan: el tratamiento de la Web Oculta del lado cliente/servidor, la detección de páginas ``basura'' (Spam y Soft-404) o la actualización de contenidos. Las técnicas existentes para la detección de Web Spam y páginas Soft-404 presentan multitud de deficiencias tanto a nivel de eficacia como de eficiencia. Además, no han sido diseñadas para su uso en sistemas de crawling. Respecto al recrawling de la Web, los métodos existentes se centran en analizar la frecuencia de cambio de las páginas o el comportamiento de los buscadores para proponer políticas de recrawling. Estos estudios se basan en datos estadísticos que intentan aproximar el instante de modificación de las páginas. Esta tesis presenta el diseño de una arquitectura de búsqueda web que plantea soluciones a las problemáticas asociadas a recursos que no deben de ser procesados: porque no son útiles (Web Spam o páginas Soft-404) o porque no han cambiado desde la última vez que se accedió a ellos. En primer lugar presenta dos estudios para caracterizar la Web. El primero de ellos analiza la Web Oculta y su tratamiento por parte de los crawlers, y el segundo analiza la evolución en la Web de la edad y la similitud de las páginas, para su uso en el recrawling de los contenidos, y de otras características que ayuden en la detección de Web Spam y páginas Soft-404. Para la detección de páginas ``basura'', se proponen técnicas basadas en contenido, que permiten detectar Web Spam y páginas Soft-404 de forma más eficaz y eficiente que las presentes en la literatura. De este modo, el crawler no dedicará recursos a descargar, indexar y mostrar este tipo de páginas, mejorando la calidad de sus repositorios. Para la actualización de contenidos, se ha propuesto un sistema que permite detectar en ``tiempo real'' modificaciones en páginas web. Nuevamente, se mejora el rendimiento del crawler debido a que, por una parte, no procesará páginas que no hayan cambiado, y por otra parte, las páginas del repositorio serán más actuales.