New methodological contributions in statistical learning for time series

  1. López Oriona, Ángel
Dirixida por:
  1. José Vilar Director

Universidade de defensa: Universidade da Coruña

Fecha de defensa: 19 de xullo de 2023

Tribunal:
  1. Amparo Alonso Betanzos Presidenta
  2. María Brígida Ferraro Secretario/a
  3. Jorge Caiado Vogal
Departamento:
  1. Matemáticas

Tipo: Tese

Teseo: 818266 DIALNET lock_openRUC editor

Resumo

As bases de datos de series temporais están a volverse omnipresentes en varios campos (por exemplo, informática, finanzas, bioloxía...), o que fai que o desenvolvemento de algoritmos de minería de datos para estes obxectos sexa unha das principais prioridades para os profesionais da aprendizaxe automática e da estatística. Esta tese trata sobre a construción de diferentes algoritmos para a minería de datos de series temporais que abordan unha ampla variedade de problemas. Proponse unha nova medida de discrepancia entre series numéricas multivariantes definida no dominio da frecuencia que se utiliza para construír varios algoritmos de clustering cuxo principal obxectivo é agrupar as series temporais en base as súas estruturas de dependencia subxacentes. Considéranse os enfoques de clustering crisp e clustering fuzzy. Adicionalmente, a medida espectral de diverxencia proposta combínase con diferentes ferramentas estatísticas (por exemplo, técnicas de redución da dimensión, descomposición wavelet, e análise de datos funcionais) para introducir poderosos algoritmos de clasicación e de detección de anomalías nun contexto de series multivariantes. O clustering de series temporais con resposta categórica tamén se aborda mediante o uso de distancias que explotan as propiedades específicas deste tipo de series. As medidas de discrepancia utilizadas para clustering empréganse asímesmo para contrastar a igualdade dos procesos xeradores de dúas series de tempo, o que dá lugar a varios contrastes de hipóteses. Adicionalmente, introdúcese un paradigma completamente novo para abordar o problema de clustering de series temporais, que se basea en considerar a precisión das predicións como criterio para o agrupamento. Trátase dun problema realista e complexo, que se aborda mediante un algoritmo específi co baseado en modelos globais de predición. Todos os métodos propostos formalízanse adecuadamente, as súas vantaxes con respecto a enfoques alternativos corrobóranse mediante completos estudos de simulación e a súa utilidade ilústrase mediante o uso de bases de datos reais. Moitos dos algoritmos construídos impleméntanse nalgún dos tres paquetes que se desenvolven na linguaxe de programación R. As funcionalidades dos mesmos descríbense mediante varios exemplos.