Show simple item record

dc.contributor.advisorQuintana, Julio
dc.contributor.authorLópez-Vazquez, Víctor
dc.date.accessioned2019-04-15T15:50:43Z
dc.date.available2019-04-15T15:50:43Z
dc.date.issued2005
dc.identifier.urihttps://hdl.handle.net/handle/20.500.11801/1998
dc.description.abstractAn MCAR (Missing Completely at Random) mechanism was used with dif- ferent missing data proportions in order to generate iteratively missing values in some data sets obtained from the Machine Learning Database Repository at the University of California, Irvine, to compare the efficiency of single, hot deck, and multiple imputation techniques in a logistic regression model. The parameter of interest in these comparisons is the separation power of the logistic regression model obtained by the area under the Receiver Operating Characteristic (ROC) curve. We are implementing unconditional and conditional mean, median, and mode (IMEAN, ICMEAN, IMED, ICMED, IMOD, ICMOD) as the single impu- tation methods. And for the Hot-Deck imputation, we used the unconditional and conditional random sampling of the observed values (IRS, ICRS), and the kth near- est neighbor imputation (KNN). The multiple one is the FRITZ (Federal Reserve Imputation Technique Zeta) algorithm implemented by [Kennickell, 1991] on the SCF (Survey of Consumer Finances). Several iterations for the separation power were obtained after a generation of missing data with a given proportions, and then fill-in these missing values by some imputation method. The average bias be- tween the real separation power and the separation power for all the iterations was calculated for all the imputation methods and some missing data proportions. The testing of these estimated biases were made by using non-parametric comparison procedures. From these testing we have found that the ICRS technique generate the minor bias on the area under the ROC curve. Also, we found that under a MCAR mechanism there are imputation methods that have a good performance at proportions of missing data higher than 15 %.en_US
dc.description.abstractUn mecanismo MCAR (Datos faltantes por completa aleatoridad) se utilizó con diferenes proporciones de datos faltantes para generar recurrentemente valores faltantes en algunos conjuntos de datos obtenidos del Machine Learning Database Repository de la Universidad de California en Irvine con el propósito de comparar la eficiencia de técnicas de imputación sencilla, hot deck y múltiple en un modelo de regresión logística. El parámetro de interés en estas comparaciones es el poder de separación del modelo de regresión logística obtenido por el área bajo la curva Receiver Operating Characteristic (ROC). Los métodos de imputación simple que se implantaron fueron la media, mediana y moda incondicionales y condicionales (IMEAN, ICMEAN, IMED, ICMED, IMOD, ICMOD). Para la imputación hot deck se usó el muestreo aleatorio incondicional y condicional de los valores observados (IRS, ICRS) y el método por el késimo vecino más cercano (KNN). El método múltiple usado fue el algoritmo FRITZ (Federal Reserve Imputation Technique Zeta) implantado por Arthur B. Kennickell en la en- cuesta SCF (Survey of Consumer Finances) [Kennickell, 1991, Kennickell, 1998]. Se obtuvieron recurrentemente estimados del poder de separación después de generarse datos faltantes con proporciones dadas y luego se sustituyeron por valores imputados por los distintos métodos. Se calculó el sesgo promedio entre el poder de separación real y el poder de separación estimado en todas las recurrencias, para todos los métodos de imputación y para algunas proporciones de datos faltantes. Las pruebas estadísticas de estos sesgos se hicieron usando procedimientos de comparación no paramétricos. De estas pruebas se encontró que la técnica ICRS genera el menor sesgo en el ́area bajo la curva ROC. También se encontró que bajo un mecanismo MCAR hay métodos de imputación que tienen una buena ejecución en proporciones de datos faltantes mayores del 15 %.en_US
dc.language.isoSpanishen_US
dc.subjectModelos de regresiónen_US
dc.titleComparación de los métodos de imputación con respecto al poder de separación del modelo de regresión logísticaen_US
dc.typeThesisen_US
dc.rights.licenseAll rights reserveden_US
dc.rights.holder(c) 2005 Victor López-Vázquezen_US
dc.contributor.committeeLorenzo, Edgardo
dc.contributor.committeeSaito, Tokuji
dc.contributor.representativeMacchiavell, Raúl
thesis.degree.levelM.S.en_US
thesis.degree.disciplineMathematical Statisticsen_US
dc.contributor.collegeCollege of Arts and Sciences - Sciencesen_US
dc.contributor.departmentDepartment of Mathematicsen_US
dc.description.graduationYear2005en_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

  • Theses & Dissertations
    Items included under this collection are theses, dissertations, and project reports submitted as a requirement for completing a degree at UPR-Mayagüez.

Show simple item record

All rights reserved
Except where otherwise noted, this item's license is described as All Rights Reserved