Loading...
EstimaciĆ³n de densidades multivariadas en flujo de datos usando mezclas adaptativas de componentes gaussianas
Moyano-NiƱo, HƩctor
Moyano-NiƱo, HƩctor
Citations
Altmetric:
Abstract
In the current world of science and technology the data arrive continuously over time, this type of data is called data stream and is impractical to store all of the data. The data mining and traditional techniques of analysis arenāt efficient enough to work with problems that have data stream. Then it is necessary to have statistical models for data stream. The adaptive mixtures (AM) is an estimation method that combines Gaussian mixture modeling and estimation via kernel. Also has as one of its main features, constant updating with the arrival sequence data. Therefore, the adaptive mixtures (AM) are very attractive for modeling the data stream. To adapt the idea adaptive mixtures to data streams presents some problems such as creating models of mixtures with too many components, slight changes in the estimated model parameters due to ordering in the arrival of new data and little applicability to space of high dimension. Many of these problems have been treated recently with the adequacy of expectation-maximization algorithm online (oEM) to the process of adaptive mixtures for data stream (oAM). The thesis presents the study of adaptive mixtures for modeling multidimensional data flow using Gaussian components. Also, it presents an experimental study with artificial data to control the growth in the number of components and improve the estimation of model components using what I call graphs adjustment components. All the theoretical framework and the algorithms presented here are directed to estimate multivariate densities, but the experimental part was carried out and implemented in R statistical programming language for data in two and three dimensions.
En muchas aplicaciones de ciencia y tecnologĆa de la actualidad los datos llegan en forma continua en el tiempo y es poco prĆ”ctico almacenar la totalidad de Ā“estos, por lo que tĆ©cnicas tradicionales de anĆ”lisis y minerĆa de datos son pocos eficientes para tratar con problemas que relacionen esta clase de datos. Se hace necesario tener modelos estadĆsticos para el flujo de datos. Las mezclas adaptativas (AM) es un mĆ©todo de estimaciĆ³n que combina el modelado con mezclas gaussianas y la estimaciĆ³n tipo nĆŗcleo, y ademĆ”s tiene como una de sus principales caracterĆsticas su constante actualizaciĆ³n con la llegada secuencial de datos. Por lo tanto, las mezclas adaptativas (AM) son muy atractivas para modelar la clase de datos en cuestiĆ³n. Adecuar la idea de mezclas adaptativas a flujos de datos presenta algunos problemas tales como la creaciĆ³n de modelos de mezclas con demasiadas componentes, ligeros cambios en los parĆ”metros de los modelos estimados debido al ordenamiento en la llegada de un nuevo dato y la poca aplicabilidad a espacios de alta dimensiĆ³n. Gran parte de estos problemas han sido tratados recientemente con la adecuaciĆ³n del algoritmo de esperanza-maximizaciĆ³n en lĆnea (oEM) al proceso de mezclas adaptativas para flujo de datos (oAM). En esta tesis se presenta el estudio de mezclas adaptativas para el modelado multidimensional de flujo de datos usando componentes gaussianas y se presenta al final un estudio experimental con datos artificiales para controlar el crecimiento en el nĆŗmero de componentes y mejorar la estimaciĆ³n de las componentes del modelo usando lo que aquĆ se ha denominado ajuste de componentes con grafos. Todo el marco teĆ³rico y los algoritmos aquĆ presentados estĆ”n orientados para la estimaciĆ³n de densidades multivariadas, pero la parte experimental fue realizada y ejecutada en lenguaje de programaciĆ³n estadĆstico R para datos en dos y tres dimensiones.
En muchas aplicaciones de ciencia y tecnologĆa de la actualidad los datos llegan en forma continua en el tiempo y es poco prĆ”ctico almacenar la totalidad de Ā“estos, por lo que tĆ©cnicas tradicionales de anĆ”lisis y minerĆa de datos son pocos eficientes para tratar con problemas que relacionen esta clase de datos. Se hace necesario tener modelos estadĆsticos para el flujo de datos. Las mezclas adaptativas (AM) es un mĆ©todo de estimaciĆ³n que combina el modelado con mezclas gaussianas y la estimaciĆ³n tipo nĆŗcleo, y ademĆ”s tiene como una de sus principales caracterĆsticas su constante actualizaciĆ³n con la llegada secuencial de datos. Por lo tanto, las mezclas adaptativas (AM) son muy atractivas para modelar la clase de datos en cuestiĆ³n. Adecuar la idea de mezclas adaptativas a flujos de datos presenta algunos problemas tales como la creaciĆ³n de modelos de mezclas con demasiadas componentes, ligeros cambios en los parĆ”metros de los modelos estimados debido al ordenamiento en la llegada de un nuevo dato y la poca aplicabilidad a espacios de alta dimensiĆ³n. Gran parte de estos problemas han sido tratados recientemente con la adecuaciĆ³n del algoritmo de esperanza-maximizaciĆ³n en lĆnea (oEM) al proceso de mezclas adaptativas para flujo de datos (oAM). En esta tesis se presenta el estudio de mezclas adaptativas para el modelado multidimensional de flujo de datos usando componentes gaussianas y se presenta al final un estudio experimental con datos artificiales para controlar el crecimiento en el nĆŗmero de componentes y mejorar la estimaciĆ³n de las componentes del modelo usando lo que aquĆ se ha denominado ajuste de componentes con grafos. Todo el marco teĆ³rico y los algoritmos aquĆ presentados estĆ”n orientados para la estimaciĆ³n de densidades multivariadas, pero la parte experimental fue realizada y ejecutada en lenguaje de programaciĆ³n estadĆstico R para datos en dos y tres dimensiones.
Description
Date
2012-06
Journal Title
Journal ISSN
Volume Title
Publisher
Collections
Research Projects
Organizational Units
Journal Issue
Keywords
Gaussian mixture, Adaptive mixture, Estimation, Statistical models