Publication:
Técnica de componentes indepedientes: aplicación y análisis de datos de series temporales sobre Puerto Rico

Thumbnail Image
Authors
Ochoa Tapia, Ysela
Embargoed Until
Advisor
Lorenzo González, Edgardo
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2014-06
Abstract
The time series analysis is oriented to the problem of prediction. Perform a univariate analysis is simpler than a multivariate analysis because the univariate analysis is concerned only with the structure of internal dependency of a series, while the multivariate analysis also considers the dependency between series and its combinations. In this research we present a method for the prediction of multivariate time series, using its independent latent series, obtained through the independent component analysis as a blind source separation technique. The fact that the latent series are independent, allow us to reduce the multivariate analysis to a multiple univariate one. Formally, the independent component analysis, is a mixture model of random va- riables X = AS, where the theory developed is focused on estimating the mixing matrix A and the latent sources S, under assumptions that the matrix A is full range, and the sources S are independent non-Gaussian [12]. In this thesis, we have temporal data in form of time series, where the model of independent components will be a combination of latent series as X(t) = AS(t), where t is time. The estimation is based on the only available information X(t), that as a result of being time series data, there is no restriction on the data being Gaussian or not [11]. The model does not incorporates errors, because it assumes white noise. To perform the estimation of latent series various methods have been developed, from different points of view, based on the hypothesis that the latent series have a certain temporal structure associated with different autocorrelation functions [6]. These methods are called temporal-space decorrelation. The most commonly used algorithms are AMUSE based on whitening of data and the covariance matrix of a time delay [23] and SOBI based on second order blind identification, such that diagonalizes joint covariance matrices of a fixed number of time delays [1]. After the estimation of the latent series, the methodology proposed by Box and Jenkins is used, through SARIMA models [2], for forecast each latent series independently. Then under the model of independent components X(t) = AS(t) with the predictions of the latent series S(t + h), we predict the original time series X(t + h). The methodology has been applied to multivariate time series of electricity consumption and the consumer index price of Puerto Rico, economic indicators that are key for decision making and economy of Puerto Rico [7]; for the development of methodology we use the AMUSE and SOBI algorithms. The results show the efficiency of the methodology and the reduction of the complexity of the prediction problem.

El análisis de series de tiempo está orientado al problema de predicción. Rea- lizar un análisis univariado es más sencillo que un análisis multivariado, porque el univariado se preocupa por la estructura de dependencia interna de una serie, ern cambio el multivariado considera además la dependencia entre series y sus combinaciones. En esta investigación se presenta un método para la predicción de series de tiempo multivariadas, utilizando sus series latentes independientes, que se obtienen mediante el análisis de componentes independientes como una técnica de separación ciega de fuentes. El hecho de que las series latentes sean independientes nos permite reducir el análisis multivariado a uno univariado múltiple. Formalmente el análisis de componentes independientes, se describe como, el modelo de mezcla de variables aleatorias X=AS, donde la teoría desarrollada se centra en estimar la matriz de mezcla A y las fuentes latentes S, bajo las suposiciones de que la matriz A es de rango completo, y las fuentes S son independientes no gaussianas [12]. En este trabajo, tendremos datos temporales en forma de series de tiempo, donde el modelo de componentes independientes será una combinación de series latentes de la forma X(t) AS(t), donde t representa el tiempo. La estimación se hace a partir de la única información disponible X(t), que por ser series de tiempo, no hay restricción de que los datos sean gaussianos o no [11]. Además el modelo no incorpora error, debido a que se asume ruido blanco. Para llevar acabo la estimación de las series latentes se han desarrollado diversos métodos, desde diferentes puntos de vista, basados en la hipótesis de que las series latentes tienen cierta estructura temporal asociada a diferentes funciones de autocorrelación [6. Estos métodos se denominan decorrelación espacio temporal. Los algoritmos más utilizados son, AMUSE basado en el blanqueamiento de los datos y la matriz de covarianza de un tiempo de retraso [23] y SOBI basado en la identificación ciega segundo orden, que diagonaliza de forma conjunta matrices de covarianza de un cierto número fijo de tiempos de retraso [1]. Una vez realizada la estimación de las series latentes, se utiliza la metodología propuesta por Boz and Jenkins mediante los modelos SARIMA [2), para la predicción de cada serie latente de forma indepen- diente. Luego bajo el modelo de componentes independientes X (t)=AS(t) con la predicción de las series latentes S(t+ h), se predice las series de tiempo originales X (t + h). La metodolgía es aplicada a series de tiempo multivariadas de consumo de energía eléctrica y el índice de precios al consumidor de Puerto Rico, indicądores económicos claves para la toma de decisiones y economía de Puerto Rico [7; para el desarrollo de la metodología se hace uso de los algoritmos AMUSE y SOBI. Los resultados obtenidos muestran la eficiencia de la metodología y la reducción de la complejidad del problema de predicción.
Keywords
Problem prediction,
Multivariate analysis,
Variables,
Matrix
Cite
Ochoa Tapia, Y. (2014). Técnica de componentes indepedientes: aplicación y análisis de datos de series temporales sobre Puerto Rico [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/937