Publication:
Predictive analytics tools to improve on-time graduation rate for undergraduate students

Thumbnail Image
Authors
Yazdani Lopez, Ramineh
Embargoed Until
Advisor
Rivera-Santiago, Roberto
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2022-05-20
Abstract
The on-time graduation rate among private and state universities in Puerto Rico is significantly lower than in the mainland United States. This problem is noteworthy because it leads to substantial negative consequences for the student, both socially and economically, and for the educational institution and the local economy. This project aims to develop a predictive model that accurately detects early in their academic pursuit students at risk for not graduating on time. Various predictive models are developed to do this, and the best model, the one with the highest performance, is selected. The models fall into four categories: the classification Decision Tree (the type which takes on discrete values), ensemble (Random Forest and Boosting), probabilistic (Naïve Bayes and Logistic Regression), and neural network. This project uses a dataset containing information from 24432 undergraduate students at the University of Puerto Rico at Mayaguez provided by the Office of Planning, Research, and Institutional Improvement. The predictive performance of the models is evaluated in two scenarios: the first Group (Group I) includes both the first year of college and pre-college factors, and the other (Group II) only considers pre-college factors. The raw dataset is used to create three modified datasets by removing rows with missing values, imputation of missing values, and oversampling of the minority class, respectively. This study's classification evaluation metrics are Recall, F1-score and misclassification error. Overall, for both scenarios, the boosting model, trained on the dataset with rows containing missing values removed and trained on the oversampled dataset, is equally the most successful at predicting who will not graduate on time. This is demonstrated by a high classification Recall score and low prediction error. The imputation of missing values results in a slight improvement in classification evaluation metrics across all models.

La tasa de graduación a tiempo en universidades privadas y estatales de Puerto Rico es significantemente más baja que en las universidades de los Estados Unidos. Este problema es notable porque lleva a consecuencias negativas sustanciales para estudiantes, ambos socialmente y económicamente, y también para la institución educativa y la economía local. Este proyecto tiene como objetivo el desarrollar un modelo predictivo que detecta con precisión estudiantes en riesgo de no graduarse a tiempo y lo hace temprano en su carrera académica. Para lograr esta meta se desarrollan varios modelos predictivos y el mejor modelo, el que tiene el mayor rendimiento, se selecciona. Los modelos caen en cuatro categorías: el árbol de decisión tipo clasificación (que toma en cuenta información discreta), de ensamblaje (bosques aleatorios y Boosting), probabilísticos (bayesiano ingenuo, regresión logística) y redes neuronales. Este proyecto usa un conjunto de datos que contiene información de 24432 estudiantes sub-graduados en la Universidad de Puerto Rico en Mayagüez proporcionado por la Oficina de Planificación, Investigación y Mejoramiento Institucional. El rendimiento predictivo de los modelos se evalúa usando dos escenarios generales. El primer escenario (grupo I) incluye factores asociados con el primer año de universidad, además de factores pre-universitarios. El segundo escenario (grupo II) solo considera factores pre-universitarios. El conjunto de datos sin procesar se usa para producir tres conjuntos de datos modificados eliminando filas con valores faltantes, usando imputación de valores faltantes, y usando sobremuestreo de clase minoritaria, respectivamente. La métricas de evaluación de la clasificación del estudio son el método de recuperación (Recall), puntaje F1 y error de clasificación. En general, para ambos escenarios, el modelo de Boosting logró tener los mejores resultados en cuanto a poder predecir quien no se graduaría a tiempo. Esto fue cierto para los tres conjuntos de datos modificados. Este resultado lo demuestra una puntuación de recuperación de clasificación alta y un error de predicción bajo. Sin embargo, el conjunto de datos con la imputación de valores faltantes produce resultados levemente mejores a través de todos los modelos en cuanto a las métricas de valuación de la clasificación.
Keywords
Predictive analytics,
Machine learning models,
Undergraduate on-time graduation
Usage Rights
All Rights Reserved / restricted to Campus
Cite
Yazdani Lopez, R. (2022). Predictive analytics tools to improve on-time graduation rate for undergraduate students [Project Report]. Retrieved from https://hdl.handle.net/20.500.11801/2890