Publication:
Censored zero-inflated Poisson regression models: Predicting success in undergraduate math courses

No Thumbnail Available
Authors
Henao Ceballos, Ferney
Embargoed Until
Advisor
Macchiavelli, Raúl E.
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2023-03-29
Abstract
Regression models explain the relation between a dependent variable (response variable) and a set of independent variables (predictor variables). In some cases, there are values of the dependent variable that cannot be observed. For example, consider the number of times a student repeats a class until passing it. Any study of this type will have a time limit, after which we will have to perform the data analysis. It is expected that at the time of data collection, there are still students who have not passed the class, and therefore we do not know the number of times these students would repeat it until passing, but we do know that this amount is greater than the observed value. In this case, we will say that the observation is censored. On other hand, a high percentage of students pass the class without repeating it, that is, there is a large percentage of zeros. In these cases, we will have censored zero-inflated count data. We propose new likelihood equations for this regression model using the Poisson distribution and study its statistical properties using simulations. Finally, we apply the model to a data set of students from the University of Puerto Rico to find models that predict if a student is at risk of failing introductory undergraduate math classes and how many times (on average) he or she may need to repeat the class.

Los modelos de regresión explican la relación entre una variable dependiente (variable de respuesta) y un conjunto de variables independientes (variables predictoras). En algunos casos, hay valores de la variable dependiente que no se pueden observar. Por ejemplo, considere la cantidad de veces que un estudiante repite una clase hasta aprobarla. Cualquier estudio de este tipo tendría un límite de tiempo, después del cual tendremos que realizar el análisis de los datos. Es de esperar que en el momento de recolectar los datos aun existan alumnos que no hayan aprobado la clase, por lo que desconocemos el número de veces que estos alumnos repetirían hasta aprobar, pero sí sabemos que esta cantidad es mayor que el valor observado. En este caso, diremos que la observación está La censurada. Por otro lado, un alto porcentaje de alumnos aprueba la materia sin repetir, es decir, existe un gran porcentaje de ceros. En estos casos, tendremos datos de conteo inflados en cero con censura. Proponemos nuevas ecuaciones likelihood para este modelo de regresión usando la distribución de Poisson y estudiamos sus propiedades estadísticas usando simulaciones. Finalmente, aplicamos el modelo a un conjunto de datos de estudiantes de la Universidad de Puerto Rico para encontrar modelos que predigan si un estudiante está en riesgo de reprobar las clases introductorias de matemáticas a nivel subgraduado y cuantas veces (en promedio) necesitarla repetir la clase.
Keywords
Censored data,
Excess of zeros,
Generalized linear models,
Count data
Usage Rights
All Rights Reserved / restricted to Campus
Cite
Henao Ceballos, F. (2023). Censored zero-inflated Poisson regression models: Predicting success in undergraduate math courses [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/3476