Un modelo de integración y preprocesamiento de información distribuida basado en ontologías

Pérez del Rey, David

Un modelo de integración y preprocesamiento de información distribuida basado en ontologías

Pérez del Rey, David

Dirigida por:

Víctor Manuel Maojo García Director/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 11 de febrero de 2008

Tribunal:

Juan Pazos Sierra Presidente/a
Alfonso Rodríguez-Patón Aradas Secretario/a
A. Pazos Vocal
José Crespo del Arco Vocal
Anselmo del Moral Bueno Vocal

Tipo: Tesis

Teseo: 186927 DIALNET Archivo Digital UPM editor

Resumen

El incremento producido en la cantidad de datos disponibles en todas las áreas de la sociedad no ha implicado un aumento proporcional del conocimiento disponible. Para obtener este conocimiento es necesario avanzar en el proceso de descubrimiento de conocimiento en bases de datos (en inglés, KDD). A pesar de que la relevancia de las fases de preparación de los datos en el proceso de descubrimiento de conocimiento a partir de los datos ha sido ampliamente reconocida en la literatura científica, se han llevado a cabo relativamente pocos esfuerzos científicos en este campo, comparados con las investigaciones centradas en el desarrollo de nuevos algoritmos de minería de datos. La investigación presentada propone el uso de ontologías de dominio en las fases previas a la minería de datos dentro de un proceso KDD. Otros trabajos previos propios, en integración de esquemas de fuentes biomédicas, sugerían la necesidad de abordar el trabajo aquí presentado. En estos trabajos previos, se creaban esquemas virtuales, basados en ontologías, enlazados a fuentes de datos físicas, que se unificaban para integrar la información de los repositorios físicos originales. La existencia de numerosos datos que debían ser preprocesados para evitar inconsistencias y errores en los resultados reforzaba esta necesidad. En la investigación planteada, la integración de instancias se afronta junto con el preprocesamiento de datos debido a su similitud funcional, utilizando una ontología como estructura de soporte formal. Una vez que la información correspondiente a las inconsistencias detectadas en los datos es almacenada en dicha ontología?proceso supervisado por un experto?los datos pueden ser transformados automáticamente cuando son requeridos por el usuario. Para validar experimentalmente el modelo creado, se han ejecutado baterías de consultas en diversas fuentes de datos heterogéneos. El análisis estadístico de los resultados muestra datos correctamente integrados y preprocesados. La posterior aplicación de algoritmos de minería sobre los resultados obtenidos ofrece también mejores resultados finales que las fuentes de datos por separado o utilizando métodos de integración tradicionales en los que no se transforman las instancias. Una ventaja adicional de este enfoque es poder acceder de forma homogénea a información de varias fuentes heterogéneas unificadas y semánticamente coherentes. Dentro de la creación de un modelo global de KDD basado en ontologías, se propone un método de tratamiento de inconsistencias de instancias, también basado en ontologías. Tradicionalmente los métodos disponibles habían abordado sólo el tratamiento de inconsistencias de esquemas. El modelo propuesto se enmarca en el área de la informática—integración de bases de datos y KDD—, y en la biomedicina como dominio de aplicación. Este trabajo ha sido desarrollado en el marco de varios proyectos europeos y ha generado ya diversas publicaciones en revistas científicas y congresos internacionales. The increase of available data produced in every area of the society has not implied a proportional growth of available knowledge. To obtain this knowledge it is needed to advance in the knowledge discovery in databases (KDD) process. Although the relevance of data preparation phases has been widely recognized by the scientific literature, relatively few efforts have been carried out in this area, compared to researches centered in developing new data mining algorithms. The following work proposes using domain ontologies in previous phases to data mining within a KDD process. Previous own works in schema integration of biomedical sources suggested to tackle the approach presented here. This previous works created virtual schemas, based on ontologies, linked to physical data sources, unified to integrate the information of the original databases. The amount of existing data that should be preprocessed to avoid inconsistencies and errors in the results strengthened this need. In the proposed investigation, integration of instances is faced together with the data preprocessing due to its functional similarity, using ontologies as a structure of formal support. Once the corresponding information to each inconsistency detected in data is stored in such ontology?a process supervised by an expert?data may be automatically transformed when users require it. To validate experimentally the model proposed several query sets have been executed with different heterogeneous data sources. The statistical analysis of the results shows data integrated and preprocessed correctly. Further application of data mining algorithms to retrieved data enhance final results, compared to separate data sources or those integrated using traditional methods without instance transformation. An additional advantage of this approach is to allow the homogeneous access to information from heterogeneous sources, unified and semantically coherent. Within the development of a global KDD model based on ontologies, a method to deal with inconsistencies of instances is proposed. Traditionally, available methods had only tackled the schema inconsistencies. The proposed model is outlined in the informatics area?database integration and KDD?, and in biomedicine as application domain. This work has been developed within the framework of European research projects and has generated different publications in scientific journals and international congresses.