New methodological contributions in statistical learning for time series
- López Oriona, Ángel
- José Vilar Director
Universidad de defensa: Universidade da Coruña
Fecha de defensa: 19 de julio de 2023
- Amparo Alonso Betanzos Presidenta
- María Brígida Ferraro Secretario/a
- Jorge Caiado Vocal
Tipo: Tesis
Resumen
Las bases de datos de series temporales se están volviendo omnipresentes en varios campos (por ejemplo, informática, finanzas, biología...), lo que hace que el desarrollo de algoritmos de minería de datos para estos objetos sea una de las principales prioridades para los profesionales del aprendizaje automático y de la estadística. Esta tesis trata sobre la construcción de diferentes algoritmos para la minería de datos de series temporales que abordan una amplia variedad de problemas. Se propone una nueva medida de disimilaridad entre series numéricas multivariantes definida en el dominio de la frecuencia que se utiliza para construir varios algoritmos de clustering cuyo principal objetivo es agrupar las series temporales en base a sus estruc- turas de dependencia subyacentes. Se consideran los enfoques de clustering crisp y clustering fuzzy. Adicionalmente, la medida espectral de divergencia propuesta se combina con diferentes herramientas estadísticas (por ejemplo, técnicas de reducción de la dimensión, descomposición wavelet, y análisis de datos funcionales) para introducir poderosos algoritmos de clasificación y de detección de anomalías en un contexto de series multivariantes. El clustering de series temporales con respuesta categórica también se aborda mediante el uso de distancias que explotan las propiedades específicas de este tipo de series. Las medidas de disimilaridad utilizadas para clustering se emplean asimismo para contrastar la igualdad de los procesos generadores de dos series de tiempo, lo que da lugar a varios contrastes de hipótesis. Adicionalmente, se introduce un paradigma completamente novedoso para abordar el problema de clustering de series temporales, que se basa en con- siderar la precisión de las predicciones como criterio para el agrupamiento. Se trata de un problema realista y complejo, que se aborda mediante un algoritmo específico basado en modelos globales de predicción. Todos los métodos propuestos se formalizan adecuadamente, sus ventajas con respecto a enfoques alternativos se corroboran mediante completos estudios de simulaci on y su utilidad se ilustra mediante el uso de bases de datos reales. Muchos de los algoritmos construidos se implementan en alguno de los tres paquetes que se desarrollan en el lenguaje de programación R. Las funcionalidades de los mismos se describen mediante varios ejemplos