Publication:
Aplicación de las técnicas de componentes principales y componentes independientes como herramientas en los métodos de regresión lineal múltiple y clasificación no supervisada a partir de variables socio-económicas de Puerto Rico

Thumbnail Image
Authors
Cabrera Cruz, Greichaly
Embargoed Until
Advisor
Lorenzo González, Edgardo
College
College of Arts and Sciences - Sciences
Department
Department of Mathematics
Degree Level
M.S.
Publisher
Date
2015-06
Abstract
Studying the socio-economic aspect of Puerto Rico is of utmost importance for decision-making in the country. This thesis presents different findings, by applying the techniques of: Principal Components, Independent Components, Unsupervised Classification and Multiple Linear Regression to socio-economic variables of Puerto Rico for 2010. Using the Principal Components technique, we succeeded in reducing the number of variables to only 3 variables, which absorbed 77% of variability. By applying the Principal Components and Independent Components techniques, new latent socio-economic factors were identified. After applying Unsupervised Classification to the socio-economic variables a regionalization with 7 clusters was obtained. The first two clusters showed poor socio-economic characteristics, the next three mean socio-economic characteristics and the last two had positive socio-economic characteristics. Moreover, the classification obtained by using principal components consisted of seven clusters, which were characterized in terms of the latent factors identified. The classification obtained using the independent component consisted of eight clusters, among them a cluster consisted of the municipalities of Vieques and Culebra, and another had only the municipality of Guaynabo. Interpretability of this classification was more limited than the other classifications. Variable selection methods were applied to the Multiple Regression technique using the principal components as regressors. After applying the Box-Cox transformation, using the response ln(population density) we obtained a valid socio-economic regression model, whose R-squared was 60.6%.

Estudiar el aspecto socio-económico de Puerto Rico es de suma importancia para la toma de decisiones en el país. Esta tesis presenta distintos hallazgos, al aplicar las técnicas de: Componentes Principales, Componentes Independientes, Clasificación No-Supervisada y Regresión Lineal Múltiple a variables socio-económicas de Puerto Rico para el año 2010. Mediante la técnica de Componentes Principales se logró reducir el número de variables a sólo 3 variables, las cuales absorbían un 77% de variabilidad. Usando las técnicas de Componentes Principales y Componentes Independientes, se identificaron nuevos factores latentes socio-económicos. Al aplicar la Clasificación No-Supervisada a las variables socioeconómicas se obtuvo una regionalización con 7 clusters. Los dos primeros clusters mostraban características socio-económicas pobres, los próximos tres características socioeconómicas medias y los últimos dos presentaban características socio-económicas positivas. Por otra parte, la clasificación obtenida al utilizar los componentes principales consistió de 7 clusters, los cuales fueron caracterizados en términos de los factores latentes identificados. La clasificación obtenida utilizando los componentes independientes consistió de 8 clusters, entre estos un cluster consistió de los municipios de Vieques y Culebra, y otro únicamente del municipio de Guaynabo. La interpretabilidad de esta clasificación fue más limitada que la de las otras clasificaciones. Se aplicaron los métodos de selección de variables en la técnica de Regresión Múltiple utilizando los componentes principales como regresoras. Luego de aplicar la transformación Box-Cox, utilizando la variable respuesta ln(densidad poblacional) obtuvimos un modelo de regresión socio-económico válido cuyo R-cuadrado fue de 60.6%.
Keywords
Linear regression,
Socio-economic aspects
Cite
Cabrera Cruz, G. (2015). Aplicación de las técnicas de componentes principales y componentes independientes como herramientas en los métodos de regresión lineal múltiple y clasificación no supervisada a partir de variables socio-económicas de Puerto Rico [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/87