Mejoras en la optimización de hiperparámetros bajo cambios en la distribución.

Fernández Díaz, Laura

Mejoras en la optimización de hiperparámetros bajo cambios en la distribución.

Fernández Díaz, Laura

Supervised by:

José Ramón Quevedo Pérez Director
Elena Montañés Roces Director

Defence university: Universidad de Oviedo

Year of defence: 2023

Committee:

Antonio Bahamonde Rionda Chair
Jorge Díez Peláez Secretary
Óscar Fontenla Romero Committee member
Alicia Troncoso Lora Committee member
Noelia Sánchez-Maroño Committee member

Type: Thesis

Teseo: 813534 DIALNET

Abstract

Actualmente, se aprecia un crecimiento en la demanda de sistemas de aprendizaje automático con la mínima interacción humana posible. Esta necesidad ha dado lugar a lo que se conoce como Auto Aprendizaje Automático (AutoML). La optimización de hiperparámetros (HPO) de los sistemas de aprendizaje automático es uno de los núcleos de los sistemas de AutoML. Este proceso involucra encontrar una configuración de valores para los hiperparámetros que permita obtener una estructura óptima para un modelo de aprendizaje automático. El principal objetivo de la investigación que se aborda en este trabajo ha consistido en incorporar mejoras en el proceso de optimización de hiperparámetros cuando hay cambios en la distribución de los atributos (covariate shift). Son dos las mejoras que se llevaron a cabo. En primer lugar, se propone un nuevo método base (metalearner) para el método apilado (stacking) cuando este método es utilizado en el contexto de HPO, concretamente en el aprendizaje por conjuntos para agregar predicciones producidas por diferentes modelos entrenados con un mismo método, pero con configuraciones diferentes de hiperparámetros. La literatura sobre HPO centra su investigación en mejorar los métodos que generan configuraciones de hiperparámetros prometedoras, pero existen pocos estudios sobre el uso de aprendizaje por conjuntos (ensemble) en este contexto. En esta investigación, tras un exhaustivo estudio de métodos existentes de aprendizaje por conjuntos (ensemble) y en particular, para el método apilado (stacking), se decidió partir del método de boosting como método base del método apilado (stacking). El método de boosting resulta prometedor en el contexto de HPO, ya que realiza una serie de regresiones donde un único atributo está involucrado, por lo que uno de los principales problemas que fuertemente afecta al contexto de HPO, denominado multicolinearidad que, entre otros, podría incurrir en sobreajuste, desaparece. Partiendo de este método, se propone una regularización implícita y un nuevo criterio de parada específicamente diseñados para el contexto de HPO, dando lugar a un nuevo método base para el método apilado que logra obtener mejores resultados en términos de capacidad predictiva. En segundo lugar, se propone una nueva forma de estimación de la importancia, la cual incurre en una mejora en cuanto a la estimación del error cometido por los modelos. Para ello, se propone una definición generalizada de la importancia que permite incluir en su cálculo información más allá de la contenida en los atributos. La conclusión es que, en efecto, esta generalización permite en muchas ocasiones obtener mejores estimaciones del error. Finalmente, esta mejora en la estimación del error se incluyó en los métodos de aprendizaje por conjuntos estudiados y propuestos en el contexto de HPO, obteniendo en ocasiones predicciones más prometedoras con respecto a la forma clásica de estimar la importancia cuando existen cambios en la distribución.