Comparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas

Salcedo Villanueva, Milena R.

Publication:

Comparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas

dc.contributor.advisor	Quintana Díaz, Julio C.
dc.contributor.author	Salcedo Villanueva, Milena R.
dc.contributor.college	College of Arts and Sciences - Sciences	en_US
dc.contributor.committee	Santana Morant, Dámaris
dc.contributor.committee	Lorenzo González, Edgardo
dc.contributor.department	Department of Mathematics	en_US
dc.contributor.representative	Wessel Beaver, Linda
dc.date.accessioned	2018-05-16T17:19:03Z
dc.date.available	2018-05-16T17:19:03Z
dc.date.issued	2011-05
dc.description.abstract	Nowadays, estimation and evaluation of classification models has increased as an area of research in pattern recognition in data bases. One of the main problems that contribute to performance deterioration of classification methods in relation to data sets occurs when classes are unbalanced, that is one or several classes have sizes significantly bigger than the others. Here particular attention has been given to the case where data are distributed in two unbalanced classes. In this thesis we present a comparative analysis of the effect of the use of sampling techniques to solve the problem of two unbalanced classes. The techniques analyzed were: random oversampling; oversampling “SMOTE” (Synthetic Minority Oversampling Technique); and combinations of oversampling “SMOTE” with the cleaning methods “ENN” (Edited Nearest Neighbor), and “Tomek-Link” (these last techniques also act as undersampling procedures). We evaluated the effects of their implementations on the following classification methods: logistic regression; linear discriminant; k-nearest neighbors; and decision trees. The purpose was to establish which of these methods showed better performance based on the results of the following evaluation metrics: misclassification rate; and the measures of “Noise”, “Silence”, “G” (based on the geometric mean) and “F”. The data sets that we used were: “CRX” and “GERMAN”, located at the webpage of Dr. Edgar Acuña, and the data sets named “EST1” y “EST2”. The combination of the oversampling “SMOTE” technique with the cleaning method ENN applied to these data sets was the most efficient in those cases where unbalanced sizes between two classes were significant.
dc.description.abstract	En la actualidad la estimación y evaluación de modelos de clasificación se ha constituido en una línea fuerte de investigación en el reconocimiento de patrones en bases de datos. Uno de los problemas principales que contribuyen al deterioro en el desempeño de los métodos de clasificación en relación al conjunto de datos ocurre cuando las clases están desbalanceadas. Es decir, una o varias clases tienen tamaños significativamente mayores que las otras. Se le ha dado particular atención al caso cuando los datos se encuentran distribuidos en dos clases y el tamaño de una ellas es significativamente mayor que la otra. En esta tesis se presenta un análisis comparativo del efecto que tiene el uso de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas. Las técnicas analizadas fueron sobre-muestreo aleatorio, sobre-muestreo SMOTE (Synthetic Minority Over-sampling Technique) y combinaciones de sobre-muestreo “SMOTE” con los métodos de limpieza “ENN” (Edited Nearest Neighbor), y “Tomek Link” (que actúan también como técnicas de sub-muestreo). Se aplicaron estos procedimientos sobre los siguientes métodos de clasificación: regresión logística, discriminante lineal, vecinos más cercanos y árboles de decisión. El propósito fue establecer entre estos métodos de clasificación cuál mostró mejor desempeño al aplicar las siguientes métricas de evaluación: tasa de error, y las medidas: G (basada en la media geométrica), “Ruido”, “Silencio” y “F”(basada en la media armónica). Para realizar este estudio se utilizaron los conjuntos de datos “CRX” y “GERMAN” que se encuentran en la página web del Dr. Edgar Acuña y los conjuntos de datos “EST1” y “EST2”. La combinación de la técnica de sobre-muestreo SMOTE y el método de limpieza de Wilson (ENN) en estos datos resultó ser más eficiente en aquellos casos donde el desbalance de las dos clases es muy significativo.
dc.description.graduationSemester	Spring	en_US
dc.description.graduationYear	2011	en_US
dc.identifier.uri	https://hdl.handle.net/20.500.11801/659
dc.language.iso	es	en_US
dc.rights.holder	(c) 2011 Milena R. Salcedo Villanueva	en_US
dc.rights.license	All rights reserved.	en_US
dc.subject	Estimation	en_US
dc.subject	Classification models	en_US
dc.subject	Comparative analysis	en_US
dc.subject.lcsh	Mathematical statistics -- Data processing	en_US
dc.subject.lcsh	Sampling (Statistics)	en_US
dc.subject.lcsh	Pattern recognition systems	en_US
dc.subject.lcsh	SMOTE	en_US
dc.subject.lcsh	Logistic regression analysis	en_US
dc.subject.lcsh	Multivariate analysis	en_US
dc.subject.lcsh	Nearest neighbor analysis (Statisitcs)	en_US
dc.title	Comparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas	en_US
dc.type	Thesis	en_US
dspace.entity.type	Publication
thesis.degree.discipline	Mathematical Statistics	en_US
thesis.degree.level	M.S.	en_US

Files

Original bundle

Now showing 1 - 1 of 1

Name:: MATE_SalcedoVillanuevaMR_2011
Size:: 3.78 MB
Format:: Adobe Portable Document Format
Description:

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.64 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Theses & Dissertations

Publication: Comparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas

Files

Original bundle

License bundle

Collections

Publication:

Comparación de técnicas basadas en muestreo para solucionar el problema de dos clases desbalanceadas