Clasificación multilingüe de documentos utilizando machine learning y la wikipedia

Mouriño García, Marcos Antonio

Clasificación multilingüe de documentos utilizando machine learning y la wikipedia

Mouriño García, Marcos Antonio

Dirigida por:

Luis E. Anido Rifón Director/a
Roberto Pérez Rodríguez Director/a

Universidad de defensa: Universidade de Vigo

Fecha de defensa: 10 de enero de 2018

Tribunal:

Nieves R. Brisaboa Presidenta
Manuel Vilares Ferro Secretario/a
Sofoklis A. Sotiriou Vocal

Tipo: Tesis

Teseo: 518613 DIALNET Investigo editor

Resumen

La gran cantidad de información textual disponible en la red, junto con el aumento de la demanda por parte de los usuarios, hace necesaria la existencia de sistemas que permitan un acceso a aquella información de interés de una forma eficiente y efectiva, ahorrando así tiempo en su búsqueda y consulta. Entre las técnicas existentes para proporcionar acceso o facilitar la gestión de información, este trabajo se centra en la clasificación de documentos, concretamente, en la clasificación automática de documentos de texto utilizando técnicas de aprendizaje máquina o machine learning. La clasificación automática de documentos utilizando técnicas de aprendizaje máquina es altamente conveniente, y cuenta con un elevado número de aplicaciones en diferentes ámbitos. Los algoritmos en los que se basan los sistemas de clasificación automática requieren que los documentos estén representados de forma que puedan entenderlos y/o relacionarlos, siendo la representación más ampliamente utilizada el modelo bolsa de palabras (Bag of Words, BoW). A pesar de ser una de las representaciones más utilizadas, este modelo no es óptimo, puesto que no tiene en cuenta la semántica de las palabras ni las relaciones semánticas entre ellas, provocando la aparición de problemas del lenguaje que afectan a la calidad de la clasificación. Este inconveniente se ve agravado en las tareas de clasificación multilingüe, las cuales han sido abordadas tradicionalmente utilizando la combinación del modelo bolsa de palabras y las técnicas de traducción automática de documentos. Estas últimas presentan una serie de desventajas que afectan de forma negativa a la calidad de las traducciones, y por ende, a la calidad de la clasificación. Por consiguiente, cuando la representación BoW se combina con la utilización de técnicas de traducción automática, las desventajas de ambas propuestas se suman, lo que conduce a un incremento de la probabilidad de error del clasificador. Con el objetivo de mitigar los problemas de las propuestas tradicionales para la clasificación monolingüe y multilingüe de documentos, en este trabajo se explora el uso de una representación de los documentos en forma de bolsa de conceptos (Bag of Concepts, BoC) de la Wikipedia (WikiBoC), obtenidos a través del anotador semántico de propósito general Wikipedia Miner, para la clasificación monolingüe y multilingüe de documentos de texto en diferentes ámbitos de aplicación. Para demostrar la aplicabilidad y beneficios aportados por la representación WikiBoC de los documentos, se han realizado diversos experimentos de clasificación monolingüe y multilingüe utilizando la propuesta presentada y las propuestas más relevantes presentes en el estado del arte, y se ha realizado el análisis y la evaluación comparativa del rendimiento de cada una de las propuestas. La principal contribución realizada por esta tesis es la posibilidad de realizar clasificación monolingüe y multilingüe de documentos de texto, pertenecientes a diversos ámbitos de aplicación, utilizando una representación de los documentos basada en conceptos que hace uso del conocimiento enciclopédico contenido en la Wikipedia, obteniendo mejores resultados que las propuestas presentes en el estado del arte. Esta contribución principal se divide a su vez en una serie de contribuciones menores, como son el análisis y la evaluación comparativa de la aplicación de la representación de los documentos WikiBoC y de las representaciones más relevantes del estado del arte a la clasificación monolingüe y multilingüe de documentos y la creación de conjuntos de datos más allá de los presentes en el estado del arte para para obtener una evaluación exhaustiva de la propuesta presentada. Los resultados obtenidos en este trabajo nos permiten concluir que el uso de la representación WikiBoC en las tareas de clasificación monolingüe y multilingüe es ventajoso, ya que los conceptos extraídos por el anotador semántico Wikipedia Miner proporcionan información muy relevante para el algoritmo de clasificación. Este comportamiento es especialmente significativo cuando los datos disponibles para entrenar el algoritmo de clasificación son escasos, y cuando los documentos involucrados en el problema de clasificación tratan sobre cuestiones o temas biomédicos.