Publication:
Modelo de clasificación y predicción en dos etapas: utilizando árboles de clasificación y el análisis de regresión multivariada

dc.contributor.advisor Acuña-Fernández, Edgar
dc.contributor.author Choque-Dextre, Yency E.
dc.contributor.college College of Arts and Sciences - Sciences en_US
dc.contributor.committee Santana Morant, Dámaris
dc.contributor.committee Lorenzo González, Edgardo
dc.contributor.department Department of Mathematics en_US
dc.contributor.representative Alers, Hilton
dc.date.accessioned 2017-12-08T14:04:21Z
dc.date.available 2017-12-08T14:04:21Z
dc.date.issued 2015-06
dc.description.abstract Currently there exists a great variety of methods and algorithms attempting to optimize the process of classification. However, these methods do not take into account the internal structure of the classification datasets. For this reason, this research work has the goal of developing a classification model in two stages using classification and regression trees (CART) and the multivariate regression trees (MRT). Taking into account also the presence of missing values. This model has been applied to datasets from the National Agrarian University La Molina (Lima-Perú) whithin the Faculty of Economy and Planification of the Department of Statistics and Informatics, with the goal of predicting if a student who is admitted to the university will be able to complete the required curriculum in the alloted timeframe. To develop the proposed model, it was considered the academic performance of the students during their first year of university studies. Considering only those students with an optimum performance, it the missing values were estimated means of two statistical techniques: Multivariate And Regression Trees and the k-Nearest Neighbor Imputation. Then, it was elaborated a statistical model using the CART’s technique, and finally, to validate the proposed model, it was used the methodology of resubstitution and the technique of cross validation. According to our results the first stage can be done automatically using clustering if the academic program does not require many courses with high level of mathematics.
dc.description.abstract En la actualidad existe una gran variedad de métodos y algoritmos que tratan de optimizar el proceso de clasificación. Sin embargo, estos no toman en cuenta la estructura interna que tienen los datos. Por tal motivo, este trabajo de investigación tiene por objetivo desarrollar un modelo de clasificación en dos etapas usando árboles de clasificación (CART) y el análisis de regresión multivariada (MRT). Además se ha tenido en cuenta la presencia de valores perdidos. Este modelo ha sido aplicado a datos de la Universidad Nacional Agraria la Molina (Lima-Perú) del Departa- mento de Estadística e informática de la Facultad de Economía y Planificación, con el objetivo de predecir si un alumno que ingresa a la universidad terminará su carrera universitaria en los años establecidos por la entidad universitaria. Para elaborar el modelo propuesto, se consideró el rendimiento académico del alumno durante su primer año de estudios universitarios. Con los estudiantes que obtuvieron un rendimiento óptimo se estimaron los datos perdidos mediante dos técnicas estadísticas: El árbol de regresión y clasificación multivariada y la imputación por los k vecinos más cercanos. Seguidamente, se elaboró el modelo estadístico utilizando la técnica del CART. Finalmente, para validar el modelo propuesto se utilizó la metodología de la resubstitución y la técnica de la validación cruzada. De acuerdo a nuestros resultados, la primera etapa de clasificación puede desarrollarse automáticamente, utilizando el análisis de cluster cuando el programa de estudios no requiera de un alto nivel académico en los cursos de matemáticas.
dc.description.graduationSemester Summer en_US
dc.description.graduationYear 2015 en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/113
dc.language.iso es en_US
dc.rights.holder (c)2015 Yency E. Choque Dextre en_US
dc.rights.license All rights reserved en_US
dc.subject Classification trees en_US
dc.subject Regression trees en_US
dc.subject Prediction model en_US
dc.subject.lcsh Algorithms en_US
dc.subject.lcsh Multivariate analysis en_US
dc.subject.lcsh Regression analysis -- Mathematical models en_US
dc.subject.lcsh Trees (Graph theory) en_US
dc.title Modelo de clasificación y predicción en dos etapas: utilizando árboles de clasificación y el análisis de regresión multivariada en_US
dc.title.alternative Two stage classification and prediction model using classification trees and multivariate regression trees en_US
dc.type Thesis en_US
dspace.entity.type Publication
thesis.degree.discipline Mathematical Statistics en_US
thesis.degree.level M.S. en_US
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
MATE_ChoqueDextreY_2015.pdf
Size:
603.08 KB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.64 KB
Format:
Item-specific license agreed upon to submission
Description: