Show simple item record

dc.contributor.advisorAcuña-Fernández, Edgar
dc.contributor.authorDaza-Portocarrero, Luis A.
dc.date.accessioned2019-02-12T15:30:46Z
dc.date.available2019-02-12T15:30:46Z
dc.date.issued2007
dc.identifier.urihttps://hdl.handle.net/20.500.11801/1792
dc.description.abstractToday, data generation is growing exponentially in both directions; instances (rows) and features (columns). This causes that many datasets can not be analyzed without preprocessing. The large size of the dataset to be analyzed may produce serious problems to some data mining algorithms in scalability as well in performance. On the other hand the quality of the data could be inadequate for the knowledge discovery process. For this reason, it is necessary to preprocess the dataset to make it suitable for an efficient performance of the data mining algorithm, and in order to obtain accurate results from it. In this thesis, we introduced new measures to evaluate the quality of a dataset in the context of supervised classification. From these quality measures, we obtain two ways of quantifying the data complexity for a classification problem, specifically, we try to anticipate the behavior of a classification algorithm given a dataset. Our data complexity measures are compared with others already available in the literature, and they give similar performance, but with a lower computational cost. For data cleaning, we propose a new method, which is independent of the classification algorithm. The proposed method detects and eliminates the noise in each class. Our method performs with more efficiency and accuracy than other methods already available in the literature. In the context of dimensionality reduction, we propose two new methods for feature selection. These methods are compared with two well known feature selection methods, the RELIEF and the Sequential Forward Selection (SFS), and similar results are obtained but with a much lower computational costs. Furthermore, we propose a new algorithm, which improves the scalability of the algorithms for instance selection currently in use Finally, we integrate the three processes: data cleaning, reduction of dimensionality, and instance selection, in order to generate a training set, which it will permit an efficient performance of the data mining algorithms, yielding accurate results.en_US
dc.description.abstractEn la actualidad, existe un crecimiento exponencial en la generación de datos, este crecimiento de los datos se da en ambas dimensiones: filas y columnas, lo que provoca que mucha información no pueda ser procesada y analizada sin un previo procesamiento. El gran tamaño del conjunto de datos a ser analizado puede causar serios problemas a los algoritmos de la minería de datos tanto en su escalabilidad como en su rendimiento. Por otro lado, la calidad de los datos no necesariamente es la adecuada para un proceso de extracción de conocimiento. Por ello se hace necesario que los datos sean preprocesados con la finalidad de adecuarlos a las técnicas existentes y éstas puedan trabajar de manera eficiente y generar resultados precisos. En esta investigación se proponen medidas para evaluar la calidad de los datos en el contexto de la clasificación supervisada. De estas medidas de calidad, se obtienen dos formas de cuantificar la complejidad de un conjunto de datos con respecto al problema de clasificación, específicamente, se trata de anticipar el comportamiento de un algoritmo de clasificación dado un conjunto de datos. Nuestras propuestas para medir la complejidad de los conjuntos de datos, es comparada con otras propuestas, mostrando un rendimiento similar a un menor costo computacional. Para la limpieza de los datos, se propone una metodología que es independiente de los algoritmos de clasificación, y la cual detecta y elimina el ruido en las clases. Nuestro método de reducción de ruido es comparado con otras propuestas, mostrando una mayor eficiencia y precisión. En el contexto de la reducción de la dimensionalidad, se proponen dos métodos eficientes y precisos de selección de variables. El rendimiento de nuestros dos métodos son comparados con dos métodos tradicionales de selección de variables: el RELIEFF y la selección secuencial hacia adelante (SFS) mostrando resultados comparables, pero con menores costos computacionales. También, se propone un nuevo algoritmo que mejora la escalabilidad de los algoritmos de selección de instancias ya existentes. Finalmente, se integra el proceso de limpieza de los datos, selección de variables reducción y selección de instancias, a fin de generar un conjunto de entrenamiento que permita a los algoritmos de la minería de datos trabajar de manera eficiente y que los resultados sean más precisos.en_US
dc.description.sponsorshipA la Oficina de Investigación Naval (ONR) por el apoyo económico parcial recibido a través del Grant N0014-03-0359. Al Departamento de Defensa por el apoyo económico parcial recibido a través del Grant N0014-06-1-0555.en_US
dc.language.isoEspanolen_US
dc.subjectCalidad de datosen_US
dc.subjectDescubrimiento de conocimientoen_US
dc.titleMétodos para mejorar la calidad de un conjunto de datos para descubrir conocimientoen_US
dc.typeDissertationen_US
dc.rights.licenseAll rights reserveden_US
dc.rights.holder(c) 2007 Luis Alberto Daza Portocarreroen_US
dc.contributor.committeeQuintana, Julio C.
dc.contributor.committeeSaito, Tokuji
dc.contributor.committeeVasquez-Urbano, Pedro
dc.contributor.representativeMacchiavellu, Raul
thesis.degree.levelPh.D.en_US
thesis.degree.disciplineComputing and Information Sciences and Engineeringen_US
dc.contributor.collegeCollege of Engineeringen_US
dc.contributor.departmentDepartment of Electrical and Computer Engineeringen_US
dc.description.graduationSemesterSummeren_US
dc.description.graduationYear2007en_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

  • Theses & Dissertations
    Items included under this collection are theses, dissertations, and project reports submitted as a requirement for completing a degree at UPR-Mayagüez.

Show simple item record

All rights reserved
Except where otherwise noted, this item's license is described as All Rights Reserved