Nonparametric Inference for Big-But-Biased Data
- Ricardo Cao Abad Director
Universidad de defensa: Universidade da Coruña
Fecha de defensa: 10 de septiembre de 2021
- Mario Francisco-Fernández Presidente
- Catalina Bolancé Losilla Secretario/a
- Mónica Fernández Bugallo Vocal
Tipo: Tesis
Resumen
Se acostumbra a pensar que en un contexto de datos de gran volumen, el conjunto de datos refleja fi elmente la población objeto de estudio, dada la gran cantidad de datos disponible. No obstante, en ocasiones estos datos están fuertemente sesgados debido, por lo general, al procedimiento de obtención de los mismos. Con el objetivo de reducir el importante sesgo que puede aparecer en un contexto de datos de gran volumen, se propone el uso de métodos de contraste para la detección de sesgo y se desarrollan métodos de estimación para la corrección del mismo. Se consideran estimadores no paramétricos de la media de una transformación de la variable aleatoria de interés. Se proponen dos escenarios diferentes para abordar el problema de la estimación cuando la función peso que produce el sesgo es desconocida. En el escenario 1, se supone que se observa adicionalmente una muestra aleatoria simple de tamaño pequeño de la población verdadera, mientras que en el escenario 2 se asume que se observa una muestra de tamaño pequeño doblemente sesgada. Las propiedades asintóticas de los estimadores propuestos se estudian ampliamente bajo condiciones límite adecuadas en los tamaños muestrales y bajo condiciones asintóticas estándar y no estándar en los dos parámetros de suavizado. El comportamiento de los estimadores no paramétricos propuestos se compara con el de los estimadores clásicos basados en las dos muestras involucradas en cada escenario a través de estudios de simulación de Monte Carlo. Los resultados de la simulación muestran que los nuevos estimadores de la media mejoran a las medias empíricas clásicas para una elección adecuada de los dos parámetros de suavizado implicados. También se estudia la influencia de los parámetros de suavizado en el funcionamiento de los estimadores, los cuales exhiben un comportamiento límite llamativo en cuanto a sus valores óptimos. Además, se introducen métodos bootstrap para la selección automática de los parámetros de suavizado para cada estimador no paramétrico de la media. Finalmente, las técnicas propuestas se aplican a varios conjuntos de datos reales procedentes de diversas áreas.