Publication:
Predictive analytics tools to improve on-time graduation rate for undergraduate students

dc.contributor.advisor Rivera-Santiago, Roberto
dc.contributor.author Yazdani Lopez, Ramineh
dc.contributor.college College of Arts and Sciences - Sciences en_US
dc.contributor.committee Ríos-Soto, Karen R.
dc.contributor.committee Santana-Morant, Dámaris
dc.contributor.department Department of Mathematics en_US
dc.contributor.representative Bartolomei-Suárez, Sonia M.
dc.date.accessioned 2022-05-20T19:50:05Z
dc.date.available 2022-05-20T19:50:05Z
dc.date.issued 2022-05-20
dc.description.abstract The on-time graduation rate among private and state universities in Puerto Rico is significantly lower than in the mainland United States. This problem is noteworthy because it leads to substantial negative consequences for the student, both socially and economically, and for the educational institution and the local economy. This project aims to develop a predictive model that accurately detects early in their academic pursuit students at risk for not graduating on time. Various predictive models are developed to do this, and the best model, the one with the highest performance, is selected. The models fall into four categories: the classification Decision Tree (the type which takes on discrete values), ensemble (Random Forest and Boosting), probabilistic (Naïve Bayes and Logistic Regression), and neural network. This project uses a dataset containing information from 24432 undergraduate students at the University of Puerto Rico at Mayaguez provided by the Office of Planning, Research, and Institutional Improvement. The predictive performance of the models is evaluated in two scenarios: the first Group (Group I) includes both the first year of college and pre-college factors, and the other (Group II) only considers pre-college factors. The raw dataset is used to create three modified datasets by removing rows with missing values, imputation of missing values, and oversampling of the minority class, respectively. This study's classification evaluation metrics are Recall, F1-score and misclassification error. Overall, for both scenarios, the boosting model, trained on the dataset with rows containing missing values removed and trained on the oversampled dataset, is equally the most successful at predicting who will not graduate on time. This is demonstrated by a high classification Recall score and low prediction error. The imputation of missing values results in a slight improvement in classification evaluation metrics across all models. en_US
dc.description.abstract La tasa de graduación a tiempo en universidades privadas y estatales de Puerto Rico es significantemente más baja que en las universidades de los Estados Unidos. Este problema es notable porque lleva a consecuencias negativas sustanciales para estudiantes, ambos socialmente y económicamente, y también para la institución educativa y la economía local. Este proyecto tiene como objetivo el desarrollar un modelo predictivo que detecta con precisión estudiantes en riesgo de no graduarse a tiempo y lo hace temprano en su carrera académica. Para lograr esta meta se desarrollan varios modelos predictivos y el mejor modelo, el que tiene el mayor rendimiento, se selecciona. Los modelos caen en cuatro categorías: el árbol de decisión tipo clasificación (que toma en cuenta información discreta), de ensamblaje (bosques aleatorios y Boosting), probabilísticos (bayesiano ingenuo, regresión logística) y redes neuronales. Este proyecto usa un conjunto de datos que contiene información de 24432 estudiantes sub-graduados en la Universidad de Puerto Rico en Mayagüez proporcionado por la Oficina de Planificación, Investigación y Mejoramiento Institucional. El rendimiento predictivo de los modelos se evalúa usando dos escenarios generales. El primer escenario (grupo I) incluye factores asociados con el primer año de universidad, además de factores pre-universitarios. El segundo escenario (grupo II) solo considera factores pre-universitarios. El conjunto de datos sin procesar se usa para producir tres conjuntos de datos modificados eliminando filas con valores faltantes, usando imputación de valores faltantes, y usando sobremuestreo de clase minoritaria, respectivamente. La métricas de evaluación de la clasificación del estudio son el método de recuperación (Recall), puntaje F1 y error de clasificación. En general, para ambos escenarios, el modelo de Boosting logró tener los mejores resultados en cuanto a poder predecir quien no se graduaría a tiempo. Esto fue cierto para los tres conjuntos de datos modificados. Este resultado lo demuestra una puntuación de recuperación de clasificación alta y un error de predicción bajo. Sin embargo, el conjunto de datos con la imputación de valores faltantes produce resultados levemente mejores a través de todos los modelos en cuanto a las métricas de valuación de la clasificación. en_US
dc.description.graduationSemester Spring en_US
dc.description.graduationYear 2022 en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/2890
dc.language.iso en en_US
dc.rights.holder (c) 2022 Ramineh Yazdani Lopez en_US
dc.subject Predictive analytics en_US
dc.subject Machine learning models en_US
dc.subject Undergraduate on-time graduation en_US
dc.subject.lcsh Prediction of scholastic success - University of Puerto Rico (Mayagüez Campus) en_US
dc.subject.lcsh Predictive analytics en_US
dc.subject.lcsh College students - Puerto Rico - Statistics en_US
dc.subject.lcsh Graduation (Statistics) en_US
dc.subject.lcsh Regression analysis - Mathematical models - Evaluation en_US
dc.title Predictive analytics tools to improve on-time graduation rate for undergraduate students en_US
dc.type Project Report en_US
dspace.entity.type Publication
thesis.degree.discipline Mathematical Statistics en_US
thesis.degree.level M.S. en_US
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
ESTA_YazdaniLopezR_2022.pdf
Size:
1.94 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.26 KB
Format:
Item-specific license agreed upon to submission
Description: