Selection of models of genomic evolution in High Performance Computing Environments

  1. Darriba, Diego
Supervised by:
  1. Ramón Doallo Director
  2. David Posada González Director
  3. Guillermo L. Taboada Director

Defence university: Universidade da Coruña

Fecha de defensa: 04 April 2016

Committee:
  1. Alexandros Stamatakis Chair
  2. Patricia González Secretary
  3. Sara Rocha Committee member
Department:
  1. Computer Engineering

Type: Thesis

Teseo: 413274 DIALNET lock_openRUC editor

Abstract

La introducción de las tecnologías de secuenciación de nueva generación, o "Next Genemtion Sequencingn (NGS), ha representado un notable cambio en el campo de la filogenética. La cantidad de ilÚormación molecular disponible está creciendo cada vez más rápido, propiciando el desarrollo de métodos y herramientas de análisis más eficientm. así como el uso de técnicas de computación de altas prestaciones (HPC) para acelerar los análisis. El campo e5tá cambiando rápidamente del análisis filogenético (i.e., estudio de uno o un conjunto reducido de genes) al filogenómico (i,e., estudio de cientos O núles de genes de genomas completos o incompletos). Muchos métodos filogenéticos requieren utilizar modelos probabilísticos de evolución molecular, y es sabido que el USO de un modelo u otro puede derivar en diferentes estimaciones filogenéticas. Tanto modelos sub- como sobreparametrizados presentan desventajas en términos de precisión. Por lo t6llto, existen herramientas populares que hacen uso de marcos estadísticos para seleccionar el modelo que mejor se ajuste a los datos, buscando el mejor compromiso entre likelihood (verosimilitud) y parametrización. Esta tesis doctoral presenta el diseño, implementación y evaluación de métodos HPC para seleccionar el modelo de evolución más adecuado, conjwltamente con el desarrollo de nuevas funciones orientadas a facilitar el análisis de datos filogenéticos. En concreto, hemos extendido y generado versiones paralelas de las dos herramientas más populares para selección de modelos de ADN y proteínas, jModelTest y ProtTest. Además, esta tesis presenta el diseño, implementación y evaluación de algoritmos para el análisis rápido y preciso de datos genómicos. Hemos creado una herramienta incorporando todas estas técnicas, denominada PartitionTest, delegando la computación principal en la librería de análisis filogenético PLL. Finalmente, hemos hecho un estudio de simulaciones sobre la importancia del uso de técnicas de selección de modelos en datos genómicos, y su impacto en la precisión al recuperar los modelos generadores y, más importante, el árbol de evolución verdadero.