Novel methods in distributed machine learning for large datasets
- Peteiro Barral, Diego
- Óscar Fontenla Romero Director
- Bertha Guijarro-Berdiñas Directora
Universidad de defensa: Universidade da Coruña
Fecha de defensa: 26 de noviembre de 2015
- Óscar Luaces Rodríguez Presidente/a
- Noelia Barreira Secretaria
- Cristina Solares Martínez Vocal
Tipo: Tesis
Resumen
La cantidad de datos almacenados actualmente está creciendo a un ritmo sin precedentes. Con la variedad, velocidad y volumen de datos transmitiéndose a través de redes de comunicación y bases de datos, encontrar patrones relevantes en estos datos que conduzcan a conclusiones significativas se ha convertido en un reto. En este contexto, el aprendizaje automático se ha convertido en una pieza fundamental para extraer el mayor valor posible de estos conjuntos de datos tan grandes y diversos. El aprendizaje automáatico permite analizar cientos de variables simultáneamente, así como la interacción entre ellas, y es muy adecuado para problemas complejos. Sin embargo, la mayoría de algoritmos de aprendizaje fueron dise~nados con la suposición de que los datos estarían representados en la memoria principal de un computador en formato de tabla pero, con el volumen de datos actual, estas estructuras son demasiado grandes para ser almacenadas como una única tabla en memoria principal. Así, la computación distribuida se ha convertido en un paradigma esencial para enfrentar las restricciones actuales en términos de velocidad y almacenamiento. En esta tesis, nos centramos en métodos que son adecuados para trabajar con grandes volumenes de datos y que tienen el potencial de ser implementados de forma distribuida. Nuestra contribución tiene dos vertientes; en primer lugar, se implementan métodos para mejorar la escalabilidad de algoritmos de aprendizaje automático y, en segundo lugar, se desarrollan métodos de aprendizaje que muestran sesgos en las distribuciones de los datos.