Show simple item record

dc.contributor.advisorQuintana, Julio
dc.contributor.authorSakcedo Villanueva, Milena R.
dc.date.accessioned2018-05-16T17:19:03Z
dc.date.available2018-05-16T17:19:03Z
dc.date.issued2011-05
dc.identifier.urihttps://hdl.handle.net/20.500.11801/659
dc.description.abstractNowadays, estimation and evaluation of classification models has increased as an area of research in pattern recognition in data bases. One of the main problems that contribute to performance deterioration of classification methods in relation to data sets occurs when classes are unbalanced, that is one or several classes have sizes significantly bigger than the others. Here particular attention has been given to the case where data are distributed in two unbalanced classes. In this thesis we present a comparative analysis of the effect of the use of sampling techniques to solve the problem of two unbalanced classes. The techniques analyzed were: random oversampling; oversampling “SMOTE” (Synthetic Minority Oversampling Technique); and combinations of oversampling “SMOTE” with the cleaning methods “ENN” (Edited Nearest Neighbor), and “Tomek-Link” (these last techniques also act as undersampling procedures). We evaluated the effects of their implementations on the following classification methods: logistic regression; linear discriminant; k-nearest neighbors; and decision trees. The purpose was to establish which of these methods showed better performance based on the results of the following evaluation metrics: misclassification rate; and the measures of “Noise”, “Silence”, “G” (based on the geometric mean) and “F”. The data sets that we used were: “CRX” and “GERMAN”, located at the webpage of Dr. Edgar Acuña, and the data sets named “EST1” y “EST2”. The combination of the oversampling “SMOTE” technique with the cleaning method ENN applied to these data sets was the most efficient in those cases where unbalanced sizes between two classes were significant.
dc.description.abstractEn la actualidad la estimación y evaluación de modelos de clasificación se ha constituido en una línea fuerte de investigación en el reconocimiento de patrones en bases de datos. Uno de los problemas principales que contribuyen al deterioro en el desempeño de los métodos de clasificación en relación al conjunto de datos ocurre cuando las clases están desbalanceadas. Es decir, una o varias clases tienen tamaños significativamente mayores que las otras. Se le ha dado particular atención al caso cuando los datos se encuentran distribuidos en dos clases y el tamaño de una ellas es significativamente mayor que la otra. En esta tesis se presenta un análisis comparativo del efecto que tiene el uso de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas. Las técnicas analizadas fueron sobre-muestreo aleatorio, sobre-muestreo SMOTE (Synthetic Minority Over-sampling Technique) y combinaciones de sobre-muestreo “SMOTE” con los métodos de limpieza “ENN” (Edited Nearest Neighbor), y “Tomek Link” (que actúan también como técnicas de sub-muestreo). Se aplicaron estos procedimientos sobre los siguientes métodos de clasificación: regresión logística, discriminante lineal, vecinos más cercanos y árboles de decisión. El propósito fue establecer entre estos métodos de clasificación cuál mostró mejor desempeño al aplicar las siguientes métricas de evaluación: tasa de error, y las medidas: G (basada en la media geométrica), “Ruido”, “Silencio” y “F”(basada en la media armónica). Para realizar este estudio se utilizaron los conjuntos de datos “CRX” y “GERMAN” que se encuentran en la página web del Dr. Edgar Acuña y los conjuntos de datos “EST1” y “EST2”. La combinación de la técnica de sobre-muestreo SMOTE y el método de limpieza de Wilson (ENN) en estos datos resultó ser más eficiente en aquellos casos donde el desbalance de las dos clases es muy significativo.
dc.language.isoesen_US
dc.subjectEstimationen_US
dc.subjectClassification modelsen_US
dc.subjectComparative analysisen_US
dc.subject.lcshMathematical statistics -- Data processingen_US
dc.subject.lcshSampling (Statistics)en_US
dc.subject.lcshPattern recognition systemsen_US
dc.subject.lcshSMOTEen_US
dc.subject.lcshLogistic regression analysisen_US
dc.subject.lcshMultivariate analysisen_US
dc.subject.lcshNearest neighbor analysis (Statisitcs)en_US
dc.titleComparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadasen_US
dc.typeThesisen_US
dc.rights.licenseAll rights reserveden_US
dc.rights.holder(c)2011 Milena R. Salcedo Villanuevaen_US
dc.contributor.committeeSantana Morant, Dámaris
dc.contributor.committeeLorenzo González, Edgardo
dc.contributor.representativeWessel Beaver, Linda
thesis.degree.levelM.S.en_US
thesis.degree.disciplineMathematical Statisticsen_US
dc.contributor.collegeCollege of Arts and Sciences - Sciencesen_US
dc.contributor.departmentDepartment of Mathematicsen_US
dc.description.graduationSemesterSpringen_US
dc.description.graduationYear2011en_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

  • Theses & Dissertations
    Items included under this collection are theses, dissertations, and project reports submitted as a requirement for completing a degree at UPR-Mayagüez.

Show simple item record

All rights reserved
Except where otherwise noted, this item's license is described as All Rights Reserved