Métodos para mejorar la calidad de un conjunto de datos para descubrir conocimiento

Thumbnail Image
Daza-Portocarrero, Luis A.
Embargoed Until
Acuña-Fernández, Edgar
College of Engineering
Department of Electrical and Computer Engineering
Degree Level
Today, data generation is growing exponentially in both directions; instances (rows) and features (columns). This causes that many datasets can not be analyzed without preprocessing. The large size of the dataset to be analyzed may produce serious problems to some data mining algorithms in scalability as well in performance. On the other hand the quality of the data could be inadequate for the knowledge discovery process. For this reason, it is necessary to preprocess the dataset to make it suitable for an efficient performance of the data mining algorithm, and in order to obtain accurate results from it. In this thesis, we introduced new measures to evaluate the quality of a dataset in the context of supervised classification. From these quality measures, we obtain two ways of quantifying the data complexity for a classification problem, specifically, we try to anticipate the behavior of a classification algorithm given a dataset. Our data complexity measures are compared with others already available in the literature, and they give similar performance, but with a lower computational cost. For data cleaning, we propose a new method, which is independent of the classification algorithm. The proposed method detects and eliminates the noise in each class. Our method performs with more efficiency and accuracy than other methods already available in the literature. In the context of dimensionality reduction, we propose two new methods for feature selection. These methods are compared with two well known feature selection methods, the RELIEF and the Sequential Forward Selection (SFS), and similar results are obtained but with a much lower computational costs. Furthermore, we propose a new algorithm, which improves the scalability of the algorithms for instance selection currently in use Finally, we integrate the three processes: data cleaning, reduction of dimensionality, and instance selection, in order to generate a training set, which it will permit an efficient performance of the data mining algorithms, yielding accurate results.

En la actualidad, existe un crecimiento exponencial en la generación de datos, este crecimiento de los datos se da en ambas dimensiones: filas y columnas, lo que provoca que mucha información no pueda ser procesada y analizada sin un previo procesamiento. El gran tamaño del conjunto de datos a ser analizado puede causar serios problemas a los algoritmos de la minería de datos tanto en su escalabilidad como en su rendimiento. Por otro lado, la calidad de los datos no necesariamente es la adecuada para un proceso de extracción de conocimiento. Por ello se hace necesario que los datos sean preprocesados con la finalidad de adecuarlos a las técnicas existentes y éstas puedan trabajar de manera eficiente y generar resultados precisos. En esta investigación se proponen medidas para evaluar la calidad de los datos en el contexto de la clasificación supervisada. De estas medidas de calidad, se obtienen dos formas de cuantificar la complejidad de un conjunto de datos con respecto al problema de clasificación, específicamente, se trata de anticipar el comportamiento de un algoritmo de clasificación dado un conjunto de datos. Nuestras propuestas para medir la complejidad de los conjuntos de datos, es comparada con otras propuestas, mostrando un rendimiento similar a un menor costo computacional. Para la limpieza de los datos, se propone una metodología que es independiente de los algoritmos de clasificación, y la cual detecta y elimina el ruido en las clases. Nuestro método de reducción de ruido es comparado con otras propuestas, mostrando una mayor eficiencia y precisión. En el contexto de la reducción de la dimensionalidad, se proponen dos métodos eficientes y precisos de selección de variables. El rendimiento de nuestros dos métodos son comparados con dos métodos tradicionales de selección de variables: el RELIEFF y la selección secuencial hacia adelante (SFS) mostrando resultados comparables, pero con menores costos computacionales. También, se propone un nuevo algoritmo que mejora la escalabilidad de los algoritmos de selección de instancias ya existentes. Finalmente, se integra el proceso de limpieza de los datos, selección de variables reducción y selección de instancias, a fin de generar un conjunto de entrenamiento que permita a los algoritmos de la minería de datos trabajar de manera eficiente y que los resultados sean más precisos.
Calidad de datos,
Descubrimiento de conocimiento
Daza-Portocarrero, L. A. (2007). Métodos para mejorar la calidad de un conjunto de datos para descubrir conocimiento [Dissertation]. Retrieved from