Minería de datos en la misión Gaiavisualización del catálogo, optimización del procesado y parametrización de estrellas
- Carlos Dafonte Director
- Minia Manteiga Codirectora
Universidad de defensa: Universidade da Coruña
Fecha de defensa: 16 de septiembre de 2019
- Juan R. Rabuñal Presidente
- Ana María Ulla Miguel Secretario/a
- Enrique Solano Márquez Vocal
Tipo: Tesis
Resumen
O traballo realizado nesta tese enmárcase dentro do proxecto Gaia, da Axencia Espacial Europea, que ten por obxectivo procesar os datos pertencentes a máis de mil millóns de estrelas para xerar o catálogo estelar máis gTande coñecido ata a actualidade, o que o converte nun gran reto para toda a comunidade científica. Para realizar o procesado e análise dos datos de Gaia creouse un consorcio internacional, denominado Data Processing and Analysis Consortium (DPAC), destinado a deseñar e implementar os mecanismos que permitan explotar a inxente cantidade de información que se obterá, da orde dun Petabyte. Está formado por máis de 400 científicos e enxeñeiros entre os que nos incluÍmos os membros do grupo de investigación no que desenvolvo esta tese. o noso traballo basease principalmente na aplicación de técnicas da Intelixencia Artificial sobre os datos proporcionados por Gaia para resolver diferentes problemas, así como na elaboración de ferramentas que permitan á comunidade científica aplicar estas técnicas sobre os seus datos e analizar os resultados obtidos. Concretamente os obxectivos que se pretenden con este traballo son os seguintes: • Aplicar técnicas de aprendizaxe supervisada para a estimación dos principais parámetros estelares para as estrelas nas que o instrumento RVS de Gaia medirá espectros con suficiente relación sinal a ruído: Temperatura efectiva, gravidade superficial logarítmica, abundancia de ferro respecto ó hidróxeno ou metalicidade e abundancia de elementos alfa respecto ó ferro. Demostrarase a eficacia da técnica utilizada aplicada a datos obtidos polo satélite Gaja. • Proporcionar á comunidade científica dunha ferramenta útil para a procura e análise de conxuntos de datos homoxéneos mediante a aplicación dun algoritmo de aprendizaxe non supervisada. Esta ferramenta permite clasificar volumes xigantescos de datos) polo que a optimización do algoritmo utilizado é un factor esenciaL Explicaranse as técnicas empregadas que permiten a esta ferramenta procesar millóns de datos nun tempo reducido. • Desenvolver unha ferramenta que facilita a análise dos resultados obtidos pala técnica de clasificación sobre millóns de obxectos estelares, de tal forma que é capaz de amosar de forma visual os diferentes agrupamentos de obxectos estelares obtidos por esta técnica permitindo explorar as súas características. Dado que esta ferramenta traballa nunha contorna Big Data o tratamento dos datos adquire un papel primordial. Comprobarase como esta ferramenta é de gran utilidade para a VIII análise dos datos e explicaranse as estratexias que se seguiron para poder visualizar conxuntos de millóns de obxectos estelares de forma áxil e fluída. En todos os casos, a gran cantidade de datos a tratar suxire a necesidade de aplicar técnicas de procesamento distribuído para evitar un consumo de recursos excesivo: tempo de execución e uso de memoria, que pode chegar a impedir unha execución satisfactoria dos métodos propostos. Procesar toda esta información no marco do proxecto Gaia require unha capacidade de cómputo importante e para reducir estes tempos realízanse optimizacións mediante técnicas de computación distribuída, como é Apache Spark, e mediante técnicas de procesado gráfico, como é CUDA. Outro aspecto importante é que o software resultante debe ser integrado dentro das cadeas de execución existentes en DPAC e despregado nos centros de procesado asociados, o que require dun proceso de adaptación do software orixinal para a plataforma de destino. Para rematar demostrarase a utilidade da técnica de aprendizaxe non supervisada noutras disciplinas onde se verá como é capaz de mellorar a detección de intrusións en tráfico de redes de comunicacións ou na xeración de perfís de usuarios para mellorar o marketing online.