Publication:
Estimación de densidades multivariadas en flujo de datos usando mezclas adaptativas de componentes gaussianas

Thumbnail Image
Authors
Moyano-Niño, Héctor
Embargoed Until
Advisor
Acuña-Fernández, Edgar
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2012-06
Abstract
In the current world of science and technology the data arrive continuously over time, this type of data is called data stream and is impractical to store all of the data. The data mining and traditional techniques of analysis aren’t efficient enough to work with problems that have data stream. Then it is necessary to have statistical models for data stream. The adaptive mixtures (AM) is an estimation method that combines Gaussian mixture modeling and estimation via kernel. Also has as one of its main features, constant updating with the arrival sequence data. Therefore, the adaptive mixtures (AM) are very attractive for modeling the data stream. To adapt the idea adaptive mixtures to data streams presents some problems such as creating models of mixtures with too many components, slight changes in the estimated model parameters due to ordering in the arrival of new data and little applicability to space of high dimension. Many of these problems have been treated recently with the adequacy of expectation-maximization algorithm online (oEM) to the process of adaptive mixtures for data stream (oAM). The thesis presents the study of adaptive mixtures for modeling multidimensional data flow using Gaussian components. Also, it presents an experimental study with artificial data to control the growth in the number of components and improve the estimation of model components using what I call graphs adjustment components. All the theoretical framework and the algorithms presented here are directed to estimate multivariate densities, but the experimental part was carried out and implemented in R statistical programming language for data in two and three dimensions.

En muchas aplicaciones de ciencia y tecnología de la actualidad los datos llegan en forma continua en el tiempo y es poco práctico almacenar la totalidad de ´estos, por lo que técnicas tradicionales de análisis y minería de datos son pocos eficientes para tratar con problemas que relacionen esta clase de datos. Se hace necesario tener modelos estadísticos para el flujo de datos. Las mezclas adaptativas (AM) es un método de estimación que combina el modelado con mezclas gaussianas y la estimación tipo núcleo, y además tiene como una de sus principales características su constante actualización con la llegada secuencial de datos. Por lo tanto, las mezclas adaptativas (AM) son muy atractivas para modelar la clase de datos en cuestión. Adecuar la idea de mezclas adaptativas a flujos de datos presenta algunos problemas tales como la creación de modelos de mezclas con demasiadas componentes, ligeros cambios en los parámetros de los modelos estimados debido al ordenamiento en la llegada de un nuevo dato y la poca aplicabilidad a espacios de alta dimensión. Gran parte de estos problemas han sido tratados recientemente con la adecuación del algoritmo de esperanza-maximización en línea (oEM) al proceso de mezclas adaptativas para flujo de datos (oAM). En esta tesis se presenta el estudio de mezclas adaptativas para el modelado multidimensional de flujo de datos usando componentes gaussianas y se presenta al final un estudio experimental con datos artificiales para controlar el crecimiento en el número de componentes y mejorar la estimación de las componentes del modelo usando lo que aquí se ha denominado ajuste de componentes con grafos. Todo el marco teórico y los algoritmos aquí presentados están orientados para la estimación de densidades multivariadas, pero la parte experimental fue realizada y ejecutada en lenguaje de programación estadístico R para datos en dos y tres dimensiones.
Keywords
Gaussian mixture,
Adaptive mixture,
Estimation,
Statistical models
Cite
Moyano-Niño, H. (2012). Estimación de densidades multivariadas en flujo de datos usando mezclas adaptativas de componentes gaussianas [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/893