Publication:
Comparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas

dc.contributor.advisor Quintana-Díaz, Julio C.
dc.contributor.author Sakcedo-Villanueva, Milena R.
dc.contributor.college College of Arts and Sciences - Sciences en_US
dc.contributor.committee Santana Morant, Dámaris
dc.contributor.committee Lorenzo González, Edgardo
dc.contributor.department Department of Mathematics en_US
dc.contributor.representative Wessel Beaver, Linda
dc.date.accessioned 2018-05-16T17:19:03Z
dc.date.available 2018-05-16T17:19:03Z
dc.date.issued 2011-05
dc.description.abstract Nowadays, estimation and evaluation of classification models has increased as an area of research in pattern recognition in data bases. One of the main problems that contribute to performance deterioration of classification methods in relation to data sets occurs when classes are unbalanced, that is one or several classes have sizes significantly bigger than the others. Here particular attention has been given to the case where data are distributed in two unbalanced classes. In this thesis we present a comparative analysis of the effect of the use of sampling techniques to solve the problem of two unbalanced classes. The techniques analyzed were: random oversampling; oversampling “SMOTE” (Synthetic Minority Oversampling Technique); and combinations of oversampling “SMOTE” with the cleaning methods “ENN” (Edited Nearest Neighbor), and “Tomek-Link” (these last techniques also act as undersampling procedures). We evaluated the effects of their implementations on the following classification methods: logistic regression; linear discriminant; k-nearest neighbors; and decision trees. The purpose was to establish which of these methods showed better performance based on the results of the following evaluation metrics: misclassification rate; and the measures of “Noise”, “Silence”, “G” (based on the geometric mean) and “F”. The data sets that we used were: “CRX” and “GERMAN”, located at the webpage of Dr. Edgar Acuña, and the data sets named “EST1” y “EST2”. The combination of the oversampling “SMOTE” technique with the cleaning method ENN applied to these data sets was the most efficient in those cases where unbalanced sizes between two classes were significant.
dc.description.abstract En la actualidad la estimación y evaluación de modelos de clasificación se ha constituido en una línea fuerte de investigación en el reconocimiento de patrones en bases de datos. Uno de los problemas principales que contribuyen al deterioro en el desempeño de los métodos de clasificación en relación al conjunto de datos ocurre cuando las clases están desbalanceadas. Es decir, una o varias clases tienen tamaños significativamente mayores que las otras. Se le ha dado particular atención al caso cuando los datos se encuentran distribuidos en dos clases y el tamaño de una ellas es significativamente mayor que la otra. En esta tesis se presenta un análisis comparativo del efecto que tiene el uso de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas. Las técnicas analizadas fueron sobre-muestreo aleatorio, sobre-muestreo SMOTE (Synthetic Minority Over-sampling Technique) y combinaciones de sobre-muestreo “SMOTE” con los métodos de limpieza “ENN” (Edited Nearest Neighbor), y “Tomek Link” (que actúan también como técnicas de sub-muestreo). Se aplicaron estos procedimientos sobre los siguientes métodos de clasificación: regresión logística, discriminante lineal, vecinos más cercanos y árboles de decisión. El propósito fue establecer entre estos métodos de clasificación cuál mostró mejor desempeño al aplicar las siguientes métricas de evaluación: tasa de error, y las medidas: G (basada en la media geométrica), “Ruido”, “Silencio” y “F”(basada en la media armónica). Para realizar este estudio se utilizaron los conjuntos de datos “CRX” y “GERMAN” que se encuentran en la página web del Dr. Edgar Acuña y los conjuntos de datos “EST1” y “EST2”. La combinación de la técnica de sobre-muestreo SMOTE y el método de limpieza de Wilson (ENN) en estos datos resultó ser más eficiente en aquellos casos donde el desbalance de las dos clases es muy significativo.
dc.description.graduationSemester Spring en_US
dc.description.graduationYear 2011 en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/659
dc.language.iso es en_US
dc.rights.holder (c)2011 Milena R. Salcedo Villanueva en_US
dc.rights.license All rights reserved en_US
dc.subject Estimation en_US
dc.subject Classification models en_US
dc.subject Comparative analysis en_US
dc.subject.lcsh Mathematical statistics -- Data processing en_US
dc.subject.lcsh Sampling (Statistics) en_US
dc.subject.lcsh Pattern recognition systems en_US
dc.subject.lcsh SMOTE en_US
dc.subject.lcsh Logistic regression analysis en_US
dc.subject.lcsh Multivariate analysis en_US
dc.subject.lcsh Nearest neighbor analysis (Statisitcs) en_US
dc.title Comparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas en_US
dc.type Thesis en_US
dspace.entity.type Publication
thesis.degree.discipline Mathematical Statistics en_US
thesis.degree.level M.S. en_US
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
MATE_SalcedoVillanuevaMR_2011.pdf
Size:
3.78 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.64 KB
Format:
Item-specific license agreed upon to submission
Description: