Show simple item record

dc.contributor.advisorAcuña Fernández, Edgar
dc.contributor.authorChoque-Dextre, Yency E.
dc.date.accessioned2017-12-08T14:04:21Z
dc.date.available2017-12-08T14:04:21Z
dc.date.issued2015-06
dc.identifier.urihttps://hdl.handle.net/20.500.11801/113
dc.description.abstractCurrently there exists a great variety of methods and algorithms attempting to optimize the process of classification. However, these methods do not take into account the internal structure of the classification datasets. For this reason, this research work has the goal of developing a classification model in two stages using classification and regression trees (CART) and the multivariate regression trees (MRT). Taking into account also the presence of missing values. This model has been applied to datasets from the National Agrarian University La Molina (Lima-Perú) whithin the Faculty of Economy and Planification of the Department of Statistics and Informatics, with the goal of predicting if a student who is admitted to the university will be able to complete the required curriculum in the alloted timeframe. To develop the proposed model, it was considered the academic performance of the students during their first year of university studies. Considering only those students with an optimum performance, it the missing values were estimated means of two statistical techniques: Multivariate And Regression Trees and the k-Nearest Neighbor Imputation. Then, it was elaborated a statistical model using the CART’s technique, and finally, to validate the proposed model, it was used the methodology of resubstitution and the technique of cross validation. According to our results the first stage can be done automatically using clustering if the academic program does not require many courses with high level of mathematics.
dc.description.abstractEn la actualidad existe una gran variedad de métodos y algoritmos que tratan de optimizar el proceso de clasificación. Sin embargo, estos no toman en cuenta la estructura interna que tienen los datos. Por tal motivo, este trabajo de investigación tiene por objetivo desarrollar un modelo de clasificación en dos etapas usando árboles de clasificación (CART) y el análisis de regresión multivariada (MRT). Además se ha tenido en cuenta la presencia de valores perdidos. Este modelo ha sido aplicado a datos de la Universidad Nacional Agraria la Molina (Lima-Perú) del Departa- mento de Estadística e informática de la Facultad de Economía y Planificación, con el objetivo de predecir si un alumno que ingresa a la universidad terminará su carrera universitaria en los años establecidos por la entidad universitaria. Para elaborar el modelo propuesto, se consideró el rendimiento académico del alumno durante su primer año de estudios universitarios. Con los estudiantes que obtuvieron un rendimiento óptimo se estimaron los datos perdidos mediante dos técnicas estadísticas: El árbol de regresión y clasificación multivariada y la imputación por los k vecinos más cercanos. Seguidamente, se elaboró el modelo estadístico utilizando la técnica del CART. Finalmente, para validar el modelo propuesto se utilizó la metodología de la resubstitución y la técnica de la validación cruzada. De acuerdo a nuestros resultados, la primera etapa de clasificación puede desarrollarse automáticamente, utilizando el análisis de cluster cuando el programa de estudios no requiera de un alto nivel académico en los cursos de matemáticas.
dc.language.isoesen_US
dc.subjectClassification treesen_US
dc.subjectRegression treesen_US
dc.subjectPrediction modelen_US
dc.subject.lcshAlgorithmsen_US
dc.subject.lcshMultivariate analysisen_US
dc.subject.lcshRegression analysis -- Mathematical modelsen_US
dc.subject.lcshTrees (Graph theory)en_US
dc.titleModelo de clasificación y predicción en dos etapas: utilizando árboles de clasificación y el análisis de regresión multivariadaen_US
dc.title.alternativeTwo stage classification and prediction model using classification trees and multivariate regression treesen_US
dc.rights.licenseAll rights reserveden_US
dc.rights.holder(c)2015 Yency E. Choque Dextreen_US
dc.contributor.committeeSantana Morant, Dámaris
dc.contributor.committeeLorenzo González, Edgardo
dc.contributor.representativeAlers, Hilton
thesis.degree.levelM.S.en_US
thesis.degree.disciplineMathematical Statisticsen_US
dc.type.thesisThesisen_US
dc.contributor.collegeCollege of Arts and Sciences - Sciencesen_US
dc.contributor.departmentDepartment of Mathematicsen_US
dc.description.graduationSemesterSummeren_US
dc.description.graduationYear2015en_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

  • Theses & Dissertations
    Items included under this collection are theses, dissertations, and project reports submitted as a requirement for completing a degree at UPR-Mayagüez.

Show simple item record