Nonparametric Inference for Big-But-Biased Data
- Ricardo Cao Abad Director
Universidad de defensa: Universidade da Coruña
Fecha de defensa: 10 de septiembre de 2021
- Mario Francisco-Fernández Presidente
- Catalina Bolancé Losilla Secretario/a
- Mónica Fernández Bugallo Vocal
Tipo: Tesis
Resumen
Adoitase pensar que nun contexto de datos de gran volume, o conxunto de datos reflicte fielmente a poboación obxecto de estudo, dada a gran cantidade de datos dos que se dispoñen. Non obstante, en moitas ocasións estes datos están fortemente nesgados debido, polo xeral, ao procedemento de obtención dos mesmos. Co obxectivo de reducir o importante nesgo que pode aparecer nun contexto de datos de gran volume, proponse o uso de métodos de contraste para a detección do sesgo e desenvólvense métodos de estimación para a corrección do mesmo. Considéranse estimadores non paramétricos para a media dunha transformación da variable aleatoria de interese. Propóñense dous escenarios diferentes para abordar o problema da estimación cando a función peso que produce o sesgo é descoñecida. No escenario 1, suponse que se observa adicionalmente unha mostra aleatoria simple de tamaño pequeno da poboación verdadeira, mentres que no escenario 2 suponse que se observa unha mostra de tamaño pequeno dobremente sesgada. As propiedades asintóticas dos estimadores propostos son amplamente estudadas baixo condicións límite axeitadas sobre os tamaños mostrais e condicións asintóticas estándar e non estándar sobre os dous parámetros de suavizado. O comportamento dos estimadores non paramétricos propostos comparase co dos estimadores clásicos baseados nas d uas mostras implicadas en cada escenario por medio de estudos de simulaci on de Monte Carlo. Os resultados das simulacións amosan como os novos estimadores da media melloran ás medias empíricas clásicas para escollas axeitadas dos dous parámetros de suavizado implicados. Tamén se estuda a inf uencia dos parámetros de suavizado no funcionamento dos estimadores, amosando un comportamento límite sorprendente en canto os seus valores óptimos. Ademais, introdúcense métodos bootstrap para a selección automática dos parámetros de suavizado para cada estimador non paramétrico da media. Finalmente, as técnicas propostas aplícanse a varios conxuntos de datos reais procedentes de diversas áreas.