Análisis no supervisado de observaciones atípicas en la misión espacial Gaia; optimización mediante procesamiento distribuido e integración en Apsis
- Carlos Dafonte Codirector
- Minia Manteiga Codirectora
Universidad de defensa: Universidade da Coruña
Fecha de defensa: 29 de septiembre de 2020
- Julián Dorado Presidente
- Carme Jordi Nebot Secretario/a
- David Teyssier Vocal
Tipo: Tesis
Resumen
Esta Tesis Doctoral se ha desarrollado en el marco de la misión Gaia de la Agencia Espacial Europea (ESA, del inglés European Space Agency) y del consorcio internacional DPAC (del inglés, Data Processing and Analysis Consortium) , bajo los que se está llevando a cabo el censo estelar más preciso y más completo hasta la fechal que pondrá a disposición de la comunidad científica información astrométrica para más de 2500 millones de fuentes. Los enormes volúmenes de datos que se han de manejar en este contexto -cuya cifra se espera que supere el Petahyte de información-, son propios de un entorno Big Data y suponen todo un reto para la comunidad científica -·-especialrnente para el consorcio DPAC-·, dificultando su almacenamiento y distribución y haciendo imposible su análisis mediante técnicas y aplicaciones convencionales. De este modo, surge la necesidad de emplear estrategias alternativas propias de la Minería de Datos (Data Mining), en las que las aplicaciones se ejecutan de forma distribuida sobre un conjunto de máquinas, tratando de explotar al máximo su capacidad de cómputo, lo que en la actualidad se ha denominado como Big Data. El grupo de investigación en el que se ha realizado esta Tesis forma parte del consorcio DPAC -en colaboración con más de 400 científicos e ingenieros- desde el año 2006, participando en las tareas de análisis de los datos y el desarrollo de herramientas para la explotación del catálogo de la misión. La principal contribución de esta Tesis al proyecto Gaia se ha materializado mediante el paquete de trabajo Outlier Analysis (OA), que se enmarca bajo la cadena de procesado Astrophysical Parameter InfeTence System (Apsis) y cuyo objetivo consiste en el análisis no supervisado o clusiering --empleando técnicas de Inteligencia Artificial (lA )_.- de aquellas fuentes cuya clase astronómica no ha podido ser identificada de forma fiable por el paquete de clasificación predecesor, el Discrete Source Classifier (DSC). En concreto, hemos abordado los siguientes aspectos: Optimización y adaptación del algoritmo de entrenamiento de los Mapas Auto-Organizativos (S0M) a diferentes plataformas de cómputo distribuido ampliamente utilizadas, como son Apache Hadoop y Apache Spark, de forma que se puedan ejecutar en un tiempo aceptable para llevar a cabo el análisis no supervisado de grandes conjuntos de observaciones -principalmente a través de la espectrofotometría BP jRP de Gaia-. Así mismo, también hemos adaptado esta técnica a la plat.aforma SAGA, designada por DPAC para dar soporte a Apsis. Integración del módulo OA en Apsis -y, por tanto, también en la plataforma SAGA- junto con el resto de paquetes de trabajo. Para ello, además de la adaptación de los mapas S0M mencionada anteriormente, hemos tenido que establecer una adecuada estrategia para el preprocesado de los datos --en especial de la espectrofotometría BP/RP-y una serie de mecanismos para la caracterización de los clusters, desde una descripción estadística basada en la información proporcionada por el propio satélite hasta diferentes indicadores de la calidad de los clusters -basados principalmente en las distancias intra-cluster_ o un indicio de su clase astronómica ------obtenida a partir de un etiquetado mediante plantillas-. - Validación de las técnicas utilizadas en el módulo OA para verificar su funcionamiento y su rendimiento en el contexto de Apsls, empleando pequeños conjuntos de datos reales -próximos a los diez millones de observaciones--. De este modo, se pretende garantizar la calidad del análisis no supervisado realizado por el módulo OA, cuyos resultados se publicarán oficialmente a partir de la Data Release 3, prevista para finales de 2021. Para ello, también hemos tenido que definir las estructuras de datos necesarias para su almacenamiento y puesta a disposición de la comunidad científica a través de la plataforma habilitada por DPAC, el Gaia Archive, en el que hemos colaborado durante el proceso de análisis y validación de casos de uso. De forma complementaria, durante el transcurso de esta Tesis hemos participado en el desarrollo de herramientas para Minería de Datos basadas en mapas SOM _y para la visualización de sus resultados-- que permitan la explotación científica del catálogo de la misión. En particular, la herramienta de visualización desarrollada por nuestro grupo de investigación, GUASOM, estará disponible a partir de la Data Release 3, contando con una versión específica -GUASOM flavor DR-3-- para el análisis de los productos del módulo OA. Del mismo modo, también hemos llevado a cabo un estudio de viabilidad acerca de la implantación de Redes de Neuronas Artificiales convencionales y generativas -basadas en técnicas genéticas y propuestas por nuestro grupo de investigación _ para la estimación de parámetros astrofísicos estelares en Apsis, bajo el paquete de trabajo GSP-Spec. Finalmente, hemos aplicado las técnicas de IA utilizadas en el contexto de la misión Gaía --u otras técnicas de similar naturaleza- a otros catálogos, como es el caso del survey astronómico ALHAMBRA, donde hemos realizado un análisis no supervisado de su catálogo, e incluso en otros ámbitos, como es el de la ciberseguridad, para la autenticación de usuarios a partir del análisis de su comportamiento mediante la monitorización continua de su actividad.