Data warehousing con procesamiento de datos textuales

Tejeda Avila, Elizabet

Data warehousing con procesamiento de datos textuales

Tejeda Avila, Elizabet

Dirigida por:

María Amparo Vila Miranda Director/a
María José Martín Bautista Codirector/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 05 de julio de 2010

Tribunal:

Miguel Delgado Calvo-Flores Presidente/a
Miguel Prados de Reyes Secretario/a
Nieves R. Brisaboa Vocal
María José Aramburu Cabo Vocal
Félix de Moya-Anegón Vocal

Tipo: Tesis

Teseo: 296237 DIALNET DIGIBUG editor

Resumen

Este trabajo se enmarca dentro de los temas de data warehousing, OLAP y procesamiento textual. De estos tres campos, el data warehousing y el OLAP mantienen una estrecha relación. Ambas tecnologías surgieron con un interés común: lograr un mejor aprovechamiento de grandes y diversas acumulaciones de información. Existen productos DW que proveen servicios OLAP y utilizando herramientas OLAP, los usuarios pueden acceder al DW mejorando así la comprensión del negocio para la toma de decisiones. En nuestro caso, nos centramos en mayor medida en la parte de las herramientas OLAP y en el modelo multidimensional que implementan. Por otro lado el procesamiento textual es un campo más específico, referido sólo a textos. El mismo se identifica con variadas técnicas, entre las que se encuentran la Minería de datos y Minería de textos (Weiss et al., 2004). Estas técnicas, en la mayoría de los casos, no están ligadas a procesos data warehousing, a pesar de que comparten un objetivo general común: la extracción de conocimiento. En esta tesis se han logrado combinar las utilidades de procesos de minería con data warehousing, de la siguiente manera: Primero se realiza el preprocesamiento necesario, para obtener parte el implícito contenido en atributos textuales de bases de datos con el uso del algoritmo Apriori. Este preprocesamiento se realiza de forma automática, con la herramienta Text Mining Tool (Mart\'{\i}nez--Folgoso, 2008) y obtiene como resultado nuevas estructuras de conocimiento correspondientes a los atributos textuales de la base de datos, como son la estructura-AP global y las subestructuras-AP inducidas correspondientes a cada tupla del atributo textual original que se procesó; estas subestructuras no son más que los posibles valores del atributo-AP. En este atributo-AP ya se tiene la parte de dicha estructura de conocimiento correspondiente a cada tupla del atributo textual original. Contando con dicha información, se pasa a definir un nuevo modelo multidimensional que brinde soporte a textos con el uso del atributo-AP obtenido. Se transforma en una dimensión-AP tras haber comprobado que un atributo-AP cumple con las condiciones de una dimensión: tener definidos un dominio y una partición. El nuevo modelo, además de definir un nuevo tipo de dimensión textual como dimensión-AP, implementa las operaciones OLAP clásicas para este tipo de dimensiones, de forma tal que se puedan relacionar con las del tipo clásico sin ninguna dificultad. Por último se implementa una herramienta OLAP, llamada Wonder OLAP Server v3.0, en adelante Wonder v3.0, que lleva a la práctica el nuevo modelo. Este sistema se utiliza en el desarrollo de sistemas data warehousing en dos entornos diferentes, uno el de publicaciones científicas y otro el entorno médico. Los data warehousing implementados muestran la utilidad del modelo y el buen funcionamiento de Wonder. Este sistema es implementado con herramientas y tecnologías de software libre para facilitar su implantación en cualquier entorno. El mismo brinda una interfaz al usuario intuitiva, diseñada con asistentes que sirven de guía en todos los procesos que se realizan.