Publication:
Comparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas

Thumbnail Image
Authors
Sakcedo Villanueva, Milena R.
Embargoed Until
Advisor
Quintana Díaz, Julio C.
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2011-05
Abstract
Nowadays, estimation and evaluation of classification models has increased as an area of research in pattern recognition in data bases. One of the main problems that contribute to performance deterioration of classification methods in relation to data sets occurs when classes are unbalanced, that is one or several classes have sizes significantly bigger than the others. Here particular attention has been given to the case where data are distributed in two unbalanced classes. In this thesis we present a comparative analysis of the effect of the use of sampling techniques to solve the problem of two unbalanced classes. The techniques analyzed were: random oversampling; oversampling “SMOTE” (Synthetic Minority Oversampling Technique); and combinations of oversampling “SMOTE” with the cleaning methods “ENN” (Edited Nearest Neighbor), and “Tomek-Link” (these last techniques also act as undersampling procedures). We evaluated the effects of their implementations on the following classification methods: logistic regression; linear discriminant; k-nearest neighbors; and decision trees. The purpose was to establish which of these methods showed better performance based on the results of the following evaluation metrics: misclassification rate; and the measures of “Noise”, “Silence”, “G” (based on the geometric mean) and “F”. The data sets that we used were: “CRX” and “GERMAN”, located at the webpage of Dr. Edgar Acuña, and the data sets named “EST1” y “EST2”. The combination of the oversampling “SMOTE” technique with the cleaning method ENN applied to these data sets was the most efficient in those cases where unbalanced sizes between two classes were significant.

En la actualidad la estimación y evaluación de modelos de clasificación se ha constituido en una línea fuerte de investigación en el reconocimiento de patrones en bases de datos. Uno de los problemas principales que contribuyen al deterioro en el desempeño de los métodos de clasificación en relación al conjunto de datos ocurre cuando las clases están desbalanceadas. Es decir, una o varias clases tienen tamaños significativamente mayores que las otras. Se le ha dado particular atención al caso cuando los datos se encuentran distribuidos en dos clases y el tamaño de una ellas es significativamente mayor que la otra. En esta tesis se presenta un análisis comparativo del efecto que tiene el uso de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas. Las técnicas analizadas fueron sobre-muestreo aleatorio, sobre-muestreo SMOTE (Synthetic Minority Over-sampling Technique) y combinaciones de sobre-muestreo “SMOTE” con los métodos de limpieza “ENN” (Edited Nearest Neighbor), y “Tomek Link” (que actúan también como técnicas de sub-muestreo). Se aplicaron estos procedimientos sobre los siguientes métodos de clasificación: regresión logística, discriminante lineal, vecinos más cercanos y árboles de decisión. El propósito fue establecer entre estos métodos de clasificación cuál mostró mejor desempeño al aplicar las siguientes métricas de evaluación: tasa de error, y las medidas: G (basada en la media geométrica), “Ruido”, “Silencio” y “F”(basada en la media armónica). Para realizar este estudio se utilizaron los conjuntos de datos “CRX” y “GERMAN” que se encuentran en la página web del Dr. Edgar Acuña y los conjuntos de datos “EST1” y “EST2”. La combinación de la técnica de sobre-muestreo SMOTE y el método de limpieza de Wilson (ENN) en estos datos resultó ser más eficiente en aquellos casos donde el desbalance de las dos clases es muy significativo.
Keywords
Estimation,
Classification models,
Comparative analysis
Cite
Sakcedo Villanueva, M. R. (2011). Comparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/659