Show simple item record

dc.contributor.advisorAcuña Fernández, Edgar
dc.contributor.authorGonzález-Toledo, Marggie D.
dc.date.accessioned2019-04-15T15:50:44Z
dc.date.available2019-04-15T15:50:44Z
dc.date.issued2004
dc.identifier.urihttps://hdl.handle.net/handle/20.500.11801/2007
dc.description.abstractClustering may be defined as a process that aims to find partitions of similar objects. It is an unsupervised recognition procedure since there are no predefined classes that indicate grouping properties in the data set. Researchers have extensively studied clustering since it arise in many application domains in engineering, social science, and biology. The basic problem in clustering is to decide the optimal number of clusters, or partitions, that fits a data set. Sometimes the clusters obtained after we applying some clustering algorithms does not represent the structure that the data set really has. For this reason we need quantitative measures to evaluate the results of a clustering algorithm. This task is named Cluster Validity. This thesis includes a description about the clustering algorithms, and its validation techniques. Our main goal is to identify which cluster validation techniques is most efficient in order to divide a given data set. In this research it was done applying seven cluster validation techniques along with three clustering algorithms on ten different data sets. The results were obtained using the R programming language and environment for statistical computing. This software can be download from the page http://www.r-project.org/ [1].en_US
dc.description.abstractAnálisis de Conglomerados puede definirse como el proceso que intenta encontrar particiones de objectos similares. Es un procedimiento de reconocimiento no supervisado porque no hay clases predefinidas que indiquen propiedades de agrupamiento en la base de datos. Decidir el número de particiones en los que se debe dividir un conjunto de datos es un problema que hay que enfrentar cuando se trabaja con análisis de conglomerados. En algunas ocasiones los grupos obtenidos después de aplicar algún algorítmo de conglomerados, no representan la estructura real que la base de datos posee. Por esta razón se necesitan medidas cuantitativas para evaluar el resultado del algoritmo de conglomerados. Esta tarea es llamada Validación de Conglomerados. Esta tesis incluye una descripción de los algorítmos de conglomerados, así como de las técnicas de validación. Nuestra meta principal es identificar que técnica de validación de conglomerados es más efectiva cuando se trata de identificar si un conjunto de datos está bien dividido. En esta investigación se aplicaron siete técnicas de validación junto con tres algorítmos de conglomerados en diez bases de datos diferentes. Los resultados fueron obtenidos usando el lenguaje de programación y ambiente para computación estadística R que puede obtenerse accesando la página electrónica http://www.r-project.org/ [1].en_US
dc.language.isoEnglishen_US
dc.subjectCluster validation techniquesen_US
dc.titleA comparison in cluster validation techniquesen_US
dc.typeThesisen_US
dc.rights.licenseAll rights reserveden_US
dc.rights.holder(c) 2004 Marggie D. González-Toledoen_US
dc.contributor.committeeLorenzo, Edgardo
dc.contributor.committeeSaito, Tokuji
dc.contributor.representativeOrtiz, Jorge L.
thesis.degree.levelM.S.en_US
thesis.degree.disciplineMathematical Statisticsen_US
dc.contributor.collegeCollege of Arts and Sciences - Sciencesen_US
dc.contributor.departmentDepartment of Mathematicsen_US
dc.description.graduationYear2004en_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

  • Theses & Dissertations
    Items included under this collection are theses, dissertations, and project reports submitted as a requirement for completing a degree at UPR-Mayagüez.

Show simple item record

All rights reserved
Except where otherwise noted, this item's license is described as All Rights Reserved