Loading...
Thumbnail Image
Publication

A semi-supervised K-means directions algorithm for the sphere

Guzmán Castro, Yeily P.
Citations
Altmetric:
Abstract
Directional data involves cyclic measurements, such as time, direction, and monthly patterns. Clustering is an unsupervised learning technique that groups observations into clusters such that those within the same cluster are homogeneous, whereas those in different clusters are heterogeneous. However, if some (or all) of the data information is available, this is known as a semi-supervised framework. In this work, we developed a semi-supervised k-means directions algorithm (ssk-meansd) designed to cluster directional data lying on the surface unitary sphere. We modified the objective function of the k-means directions algorithm to incorporate information from the observation set. We adapted a Lloyd’s iterative algorithms that depend on the initial values. We propose initializing the labeled groups using their means and the remaining groups randomly. Samples from a Langevin distribution with various combinations of sample sizes, dimensions, number of groups, group separation, and with and without group representation were generated to study ssk-meansd. The simulations indicate that the best Adjusted Rand Index results were achieved when the sample groups did not overlap and when the proportion of available label information was higher. Finally, we applied our semi-supervised k-means directions algorithm to two text analysis datasets: the Classic3 and JSM-2008 abstracts datasets.
Los datos direccionales implican mediciones cíclicas, como tiempo, dirección y patrones mensuales. La agrupación en clústeres es una técnica de aprendizaje no supervisado que agrupa las observaciones en clústeres de modo que las que están dentro del mismo clúster sean homogéneas, mientras que las de diferentes clústeres sean heterogéneas. Sin embargo, si parte (o toda) de la información de los datos está disponible, esto se conoce como un marco semisupervisado. En este trabajo, desarrollamos un algoritmo semisupervisado de direcciones de k-medias (ssk-means directions) diseñado para agrupar datos direccionales que se encuentran en la esfera unitaria de superficie. Modificamos la función objetivo del algoritmo de direcciones de k-means para incorporar información del conjunto de observaciones. Adaptamos un algoritmo iterativo de Lloyd que depende de los valores iniciales. Proponemos inicializar los grupos etiquetados utilizando sus medias y los grupos restantes aleatoriamente. Se generaron muestras de una distribución de Langevin con varias combinaciones de tamaños de muestra, dimensiones, número de grupos, separación de grupos y con y sin representación de grupos para estudiar sskmeans directions. Las simulaciones indican que los mejores resultados del Índice Rand Ajustado se obtuvieron cuando los grupos de muestra no se superponían y la proporción de información disponible sobre las etiquetas era mayor. Finalmente, aplicamos nuestro algoritmo semisupervisado de direcciones de k-means a dos conjuntos de datos de análisis de texto: los conjuntos de datos de resúmenes Classic3 y JSM − 2008.
Description
Date
2025-12-17
Journal Title
Journal ISSN
Volume Title
Publisher
Research Projects
Organizational Units
Journal Issue
Keywords
k-means, directions, semi-supervised, clustering, spherical
Citation
Embedded videos