Publication:
Métodos para mejorar la calidad de un conjunto de datos para descubrir conocimiento

dc.contributor.advisor Acuña-Fernández, Edgar
dc.contributor.author Daza-Portocarrero, Luis A.
dc.contributor.college College of Engineering en_US
dc.contributor.committee Quintana, Julio C.
dc.contributor.committee Saito, Tokuji
dc.contributor.committee Vasquez-Urbano, Pedro
dc.contributor.department Department of Electrical and Computer Engineering en_US
dc.contributor.representative Macchiavellu, Raul
dc.date.accessioned 2019-02-12T15:30:46Z
dc.date.available 2019-02-12T15:30:46Z
dc.date.issued 2007
dc.description.abstract Today, data generation is growing exponentially in both directions; instances (rows) and features (columns). This causes that many datasets can not be analyzed without preprocessing. The large size of the dataset to be analyzed may produce serious problems to some data mining algorithms in scalability as well in performance. On the other hand the quality of the data could be inadequate for the knowledge discovery process. For this reason, it is necessary to preprocess the dataset to make it suitable for an efficient performance of the data mining algorithm, and in order to obtain accurate results from it. In this thesis, we introduced new measures to evaluate the quality of a dataset in the context of supervised classification. From these quality measures, we obtain two ways of quantifying the data complexity for a classification problem, specifically, we try to anticipate the behavior of a classification algorithm given a dataset. Our data complexity measures are compared with others already available in the literature, and they give similar performance, but with a lower computational cost. For data cleaning, we propose a new method, which is independent of the classification algorithm. The proposed method detects and eliminates the noise in each class. Our method performs with more efficiency and accuracy than other methods already available in the literature. In the context of dimensionality reduction, we propose two new methods for feature selection. These methods are compared with two well known feature selection methods, the RELIEF and the Sequential Forward Selection (SFS), and similar results are obtained but with a much lower computational costs. Furthermore, we propose a new algorithm, which improves the scalability of the algorithms for instance selection currently in use Finally, we integrate the three processes: data cleaning, reduction of dimensionality, and instance selection, in order to generate a training set, which it will permit an efficient performance of the data mining algorithms, yielding accurate results. en_US
dc.description.abstract En la actualidad, existe un crecimiento exponencial en la generación de datos, este crecimiento de los datos se da en ambas dimensiones: filas y columnas, lo que provoca que mucha información no pueda ser procesada y analizada sin un previo procesamiento. El gran tamaño del conjunto de datos a ser analizado puede causar serios problemas a los algoritmos de la minería de datos tanto en su escalabilidad como en su rendimiento. Por otro lado, la calidad de los datos no necesariamente es la adecuada para un proceso de extracción de conocimiento. Por ello se hace necesario que los datos sean preprocesados con la finalidad de adecuarlos a las técnicas existentes y éstas puedan trabajar de manera eficiente y generar resultados precisos. En esta investigación se proponen medidas para evaluar la calidad de los datos en el contexto de la clasificación supervisada. De estas medidas de calidad, se obtienen dos formas de cuantificar la complejidad de un conjunto de datos con respecto al problema de clasificación, específicamente, se trata de anticipar el comportamiento de un algoritmo de clasificación dado un conjunto de datos. Nuestras propuestas para medir la complejidad de los conjuntos de datos, es comparada con otras propuestas, mostrando un rendimiento similar a un menor costo computacional. Para la limpieza de los datos, se propone una metodología que es independiente de los algoritmos de clasificación, y la cual detecta y elimina el ruido en las clases. Nuestro método de reducción de ruido es comparado con otras propuestas, mostrando una mayor eficiencia y precisión. En el contexto de la reducción de la dimensionalidad, se proponen dos métodos eficientes y precisos de selección de variables. El rendimiento de nuestros dos métodos son comparados con dos métodos tradicionales de selección de variables: el RELIEFF y la selección secuencial hacia adelante (SFS) mostrando resultados comparables, pero con menores costos computacionales. También, se propone un nuevo algoritmo que mejora la escalabilidad de los algoritmos de selección de instancias ya existentes. Finalmente, se integra el proceso de limpieza de los datos, selección de variables reducción y selección de instancias, a fin de generar un conjunto de entrenamiento que permita a los algoritmos de la minería de datos trabajar de manera eficiente y que los resultados sean más precisos. en_US
dc.description.graduationSemester Summer en_US
dc.description.graduationYear 2007 en_US
dc.description.sponsorship A la Oficina de Investigación Naval (ONR) por el apoyo económico parcial recibido a través del Grant N0014-03-0359. Al Departamento de Defensa por el apoyo económico parcial recibido a través del Grant N0014-06-1-0555. en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/1792
dc.language.iso Espanol en_US
dc.rights.holder (c) 2007 Luis Alberto Daza Portocarrero en_US
dc.rights.license All rights reserved en_US
dc.subject Calidad de datos en_US
dc.subject Descubrimiento de conocimiento en_US
dc.title Métodos para mejorar la calidad de un conjunto de datos para descubrir conocimiento en_US
dc.type Dissertation en_US
dspace.entity.type Publication
thesis.degree.discipline Computing and Information Sciences and Engineering en_US
thesis.degree.level Ph.D. en_US
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
CIIC_DazaPortocarreroL_2007.pdf
Size:
984.65 KB
Format:
Adobe Portable Document Format
Description: