Loading...
An initialization algorithm using distribution-free method
CastaƱeda Molina, Eduar A.
CastaƱeda Molina, Eduar A.
Citations
Altmetric:
Abstract
Clustering is an unsupervised technique that partitions a dataset into homogeneous groups. The choice of initial values is a critical component in the performance of clustering algorithms. These values have a significant impact on the performance of these algorithms. In this study, we propose an initialization algorithm that combines the empirical likelihood approach with the normed residuals of the observations that have been chosen as initial values and their cumulative distribution function. Potential candidates for the initial values are the farthest from each other. Based on the empirical likelihood, these values will have a higher weight than those already considered. We prove that, if the initial values are obtained using our methodology, the expected objective function is reduced. Simulation experiments are carried out to study the proposed methodology. Our methodology is compared with popular initialization methods in terms of performance, that is, finding cluster solutions, as well as in terms of iterations. Our methodology is a top performer in finding homogeneous spherical groups, requiring a smaller number of iterations to converge than competing methods. Finally, the proposed methodology is applied to several real datasets.
La agrupaciĆ³n en clĆŗsteres es una tĆ©cnica no supervisada que divide un conjunto de datos determinado en grupos homogĆ©neos. Un componente crĆtico en el desempeƱo de los algoritmos de agrupamiento es la elecciĆ³n de los valores iniciales. Estos valores tienen un impacto masivo en el rendimiento de estos algoritmos. En este trabajo, proponemos un algoritmo de inicializaciĆ³n que combina el enfoque de verosimilitud empĆrica con los residuales normalizados de las observaciones que se han elegido como valores iniciales y su funciĆ³n de distribuciĆ³n acumulada. Los candidatos potenciales para los valores iniciales son los mĆ”s alejados entre sĆ. Con base a la verosimilitud empĆrica estos valores tendrĆ”n un peso mayor que los ya considerados. Probamos que si se obtienen los valores iniciales usando nuestra metodologĆa, la funciĆ³n objetivo esperada se reduce. Se realizan experimentos de simulaciĆ³n para estudiar la metodologĆa propuesta. Nuestra metodologĆa se compara con mĆ©todos de inicializaciĆ³n populares en tĆ©rminos de rendimiento, es decir, encontrar soluciones de clĆŗster, asĆ como en tĆ©rminos de iteraciĆ³n. Nuestra metodologĆa es una de las mejores en la bĆŗsqueda de grupos esfĆ©ricos homogĆ©neos. AdemĆ”s, requiere un nĆŗmero menor de iteraciones para converger que los mĆ©todos competidores. Finalmente, aplicamos nuestra metodologĆa en conjuntos de datos reales.
La agrupaciĆ³n en clĆŗsteres es una tĆ©cnica no supervisada que divide un conjunto de datos determinado en grupos homogĆ©neos. Un componente crĆtico en el desempeƱo de los algoritmos de agrupamiento es la elecciĆ³n de los valores iniciales. Estos valores tienen un impacto masivo en el rendimiento de estos algoritmos. En este trabajo, proponemos un algoritmo de inicializaciĆ³n que combina el enfoque de verosimilitud empĆrica con los residuales normalizados de las observaciones que se han elegido como valores iniciales y su funciĆ³n de distribuciĆ³n acumulada. Los candidatos potenciales para los valores iniciales son los mĆ”s alejados entre sĆ. Con base a la verosimilitud empĆrica estos valores tendrĆ”n un peso mayor que los ya considerados. Probamos que si se obtienen los valores iniciales usando nuestra metodologĆa, la funciĆ³n objetivo esperada se reduce. Se realizan experimentos de simulaciĆ³n para estudiar la metodologĆa propuesta. Nuestra metodologĆa se compara con mĆ©todos de inicializaciĆ³n populares en tĆ©rminos de rendimiento, es decir, encontrar soluciones de clĆŗster, asĆ como en tĆ©rminos de iteraciĆ³n. Nuestra metodologĆa es una de las mejores en la bĆŗsqueda de grupos esfĆ©ricos homogĆ©neos. AdemĆ”s, requiere un nĆŗmero menor de iteraciones para converger que los mĆ©todos competidores. Finalmente, aplicamos nuestra metodologĆa en conjuntos de datos reales.
Description
Date
2023-05-12
Journal Title
Journal ISSN
Volume Title
Publisher
Collections
Research Projects
Organizational Units
Journal Issue
Keywords
Clustering, K-means, Empirical likelihood, Initialization, K-means++