Publication:
Modelo de clasificación y predicción en dos etapas: utilizando árboles de clasificación y el análisis de regresión multivariada

Thumbnail Image
Authors
Choque-Dextre, Yency E.
Embargoed Until
Advisor
Acuña-Fernández, Edgar
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2015-06
Abstract
Currently there exists a great variety of methods and algorithms attempting to optimize the process of classification. However, these methods do not take into account the internal structure of the classification datasets. For this reason, this research work has the goal of developing a classification model in two stages using classification and regression trees (CART) and the multivariate regression trees (MRT). Taking into account also the presence of missing values. This model has been applied to datasets from the National Agrarian University La Molina (Lima-Perú) whithin the Faculty of Economy and Planification of the Department of Statistics and Informatics, with the goal of predicting if a student who is admitted to the university will be able to complete the required curriculum in the alloted timeframe. To develop the proposed model, it was considered the academic performance of the students during their first year of university studies. Considering only those students with an optimum performance, it the missing values were estimated means of two statistical techniques: Multivariate And Regression Trees and the k-Nearest Neighbor Imputation. Then, it was elaborated a statistical model using the CART’s technique, and finally, to validate the proposed model, it was used the methodology of resubstitution and the technique of cross validation. According to our results the first stage can be done automatically using clustering if the academic program does not require many courses with high level of mathematics.

En la actualidad existe una gran variedad de métodos y algoritmos que tratan de optimizar el proceso de clasificación. Sin embargo, estos no toman en cuenta la estructura interna que tienen los datos. Por tal motivo, este trabajo de investigación tiene por objetivo desarrollar un modelo de clasificación en dos etapas usando árboles de clasificación (CART) y el análisis de regresión multivariada (MRT). Además se ha tenido en cuenta la presencia de valores perdidos. Este modelo ha sido aplicado a datos de la Universidad Nacional Agraria la Molina (Lima-Perú) del Departa- mento de Estadística e informática de la Facultad de Economía y Planificación, con el objetivo de predecir si un alumno que ingresa a la universidad terminará su carrera universitaria en los años establecidos por la entidad universitaria. Para elaborar el modelo propuesto, se consideró el rendimiento académico del alumno durante su primer año de estudios universitarios. Con los estudiantes que obtuvieron un rendimiento óptimo se estimaron los datos perdidos mediante dos técnicas estadísticas: El árbol de regresión y clasificación multivariada y la imputación por los k vecinos más cercanos. Seguidamente, se elaboró el modelo estadístico utilizando la técnica del CART. Finalmente, para validar el modelo propuesto se utilizó la metodología de la resubstitución y la técnica de la validación cruzada. De acuerdo a nuestros resultados, la primera etapa de clasificación puede desarrollarse automáticamente, utilizando el análisis de cluster cuando el programa de estudios no requiera de un alto nivel académico en los cursos de matemáticas.
Keywords
Classification trees,
Regression trees,
Prediction model
Cite
Choque-Dextre, Y. E. (2015). Modelo de clasificación y predicción en dos etapas: utilizando árboles de clasificación y el análisis de regresión multivariada [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/113