Publication:
An initialization algorithm using distribution-free method

dc.contributor.advisor Almodóvar Rivera, Israel A.
dc.contributor.author Castañeda Molina, Eduar A.
dc.contributor.college College of Arts and Sciences - Sciences
dc.contributor.committee Colón Reyes, Omar
dc.contributor.committee Lorenzo Gonzalez, Edgardo
dc.contributor.department Department of Mathematics
dc.contributor.representative Del Pilar Albaladejo, Joselyn
dc.date.accessioned 2023-05-22T18:52:05Z
dc.date.available 2023-05-22T18:52:05Z
dc.date.issued 2023-05-12
dc.description.abstract Clustering is an unsupervised technique that partitions a dataset into homogeneous groups. The choice of initial values is a critical component in the performance of clustering algorithms. These values have a significant impact on the performance of these algorithms. In this study, we propose an initialization algorithm that combines the empirical likelihood approach with the normed residuals of the observations that have been chosen as initial values and their cumulative distribution function. Potential candidates for the initial values are the farthest from each other. Based on the empirical likelihood, these values will have a higher weight than those already considered. We prove that, if the initial values are obtained using our methodology, the expected objective function is reduced. Simulation experiments are carried out to study the proposed methodology. Our methodology is compared with popular initialization methods in terms of performance, that is, finding cluster solutions, as well as in terms of iterations. Our methodology is a top performer in finding homogeneous spherical groups, requiring a smaller number of iterations to converge than competing methods. Finally, the proposed methodology is applied to several real datasets.
dc.description.abstract La agrupación en clústeres es una técnica no supervisada que divide un conjunto de datos determinado en grupos homogéneos. Un componente crítico en el desempeño de los algoritmos de agrupamiento es la elección de los valores iniciales. Estos valores tienen un impacto masivo en el rendimiento de estos algoritmos. En este trabajo, proponemos un algoritmo de inicialización que combina el enfoque de verosimilitud empírica con los residuales normalizados de las observaciones que se han elegido como valores iniciales y su función de distribución acumulada. Los candidatos potenciales para los valores iniciales son los más alejados entre sí. Con base a la verosimilitud empírica estos valores tendrán un peso mayor que los ya considerados. Probamos que si se obtienen los valores iniciales usando nuestra metodología, la función objetivo esperada se reduce. Se realizan experimentos de simulación para estudiar la metodología propuesta. Nuestra metodología se compara con métodos de inicialización populares en términos de rendimiento, es decir, encontrar soluciones de clúster, así como en términos de iteración. Nuestra metodología es una de las mejores en la búsqueda de grupos esféricos homogéneos. Además, requiere un número menor de iteraciones para converger que los métodos competidores. Finalmente, aplicamos nuestra metodología en conjuntos de datos reales.
dc.description.graduationSemester Spring
dc.description.graduationYear 2023
dc.identifier.uri https://hdl.handle.net/20.500.11801/3523
dc.language.iso en
dc.rights Attribution-ShareAlike 3.0 United States *
dc.rights.holder (c) 2023 Eduar A. Castañeda Molina
dc.rights.uri http://creativecommons.org/licenses/by-sa/3.0/us/ *
dc.subject Clustering
dc.subject Initialization
dc.subject Empirical likelihood
dc.subject K-means
dc.subject K-means++
dc.title An initialization algorithm using distribution-free method
dc.title.alternative Un algoritmo de inicialización usando un método libre de distribución
dc.type Thesis
dspace.entity.type Publication
thesis.degree.discipline Mathematical Statistics
thesis.degree.level M.S.
Files