Publication:
Aplicación de las técnicas de componentes principales y componentes independientes como herramientas en los métodos de regresión lineal múltiple y clasificación no supervisada a partir de variables socio-económicas de Puerto Rico

dc.contributor.advisor Lorenzo González, Edgardo
dc.contributor.author Cabrera Cruz, Greichaly
dc.contributor.college College of Arts and Sciences - Sciences en_US
dc.contributor.committee Díaz Caraballo, José N.
dc.contributor.committee Santana Morant, Dámaris
dc.contributor.department Department of Mathematics en_US
dc.contributor.representative Castellano Rodríguez, Dorial
dc.date.accessioned 2017-11-27T15:15:51Z
dc.date.available 2017-11-27T15:15:51Z
dc.date.issued 2015-06
dc.description.abstract Studying the socio-economic aspect of Puerto Rico is of utmost importance for decision-making in the country. This thesis presents different findings, by applying the techniques of: Principal Components, Independent Components, Unsupervised Classification and Multiple Linear Regression to socio-economic variables of Puerto Rico for 2010. Using the Principal Components technique, we succeeded in reducing the number of variables to only 3 variables, which absorbed 77% of variability. By applying the Principal Components and Independent Components techniques, new latent socio-economic factors were identified. After applying Unsupervised Classification to the socio-economic variables a regionalization with 7 clusters was obtained. The first two clusters showed poor socio-economic characteristics, the next three mean socio-economic characteristics and the last two had positive socio-economic characteristics. Moreover, the classification obtained by using principal components consisted of seven clusters, which were characterized in terms of the latent factors identified. The classification obtained using the independent component consisted of eight clusters, among them a cluster consisted of the municipalities of Vieques and Culebra, and another had only the municipality of Guaynabo. Interpretability of this classification was more limited than the other classifications. Variable selection methods were applied to the Multiple Regression technique using the principal components as regressors. After applying the Box-Cox transformation, using the response ln(population density) we obtained a valid socio-economic regression model, whose R-squared was 60.6%.
dc.description.abstract Estudiar el aspecto socio-económico de Puerto Rico es de suma importancia para la toma de decisiones en el país. Esta tesis presenta distintos hallazgos, al aplicar las técnicas de: Componentes Principales, Componentes Independientes, Clasificación No-Supervisada y Regresión Lineal Múltiple a variables socio-económicas de Puerto Rico para el año 2010. Mediante la técnica de Componentes Principales se logró reducir el número de variables a sólo 3 variables, las cuales absorbían un 77% de variabilidad. Usando las técnicas de Componentes Principales y Componentes Independientes, se identificaron nuevos factores latentes socio-económicos. Al aplicar la Clasificación No-Supervisada a las variables socioeconómicas se obtuvo una regionalización con 7 clusters. Los dos primeros clusters mostraban características socio-económicas pobres, los próximos tres características socioeconómicas medias y los últimos dos presentaban características socio-económicas positivas. Por otra parte, la clasificación obtenida al utilizar los componentes principales consistió de 7 clusters, los cuales fueron caracterizados en términos de los factores latentes identificados. La clasificación obtenida utilizando los componentes independientes consistió de 8 clusters, entre estos un cluster consistió de los municipios de Vieques y Culebra, y otro únicamente del municipio de Guaynabo. La interpretabilidad de esta clasificación fue más limitada que la de las otras clasificaciones. Se aplicaron los métodos de selección de variables en la técnica de Regresión Múltiple utilizando los componentes principales como regresoras. Luego de aplicar la transformación Box-Cox, utilizando la variable respuesta ln(densidad poblacional) obtuvimos un modelo de regresión socio-económico válido cuyo R-cuadrado fue de 60.6%.
dc.description.graduationSemester Summer en_US
dc.description.graduationYear 2015 en_US
dc.identifier.uri https://hdl.handle.net/20.500.11801/87
dc.language.iso es en_US
dc.rights.holder (c)2015 Greichaly Cabrera Cruz en_US
dc.rights.license All rights reserved en_US
dc.subject Linear regression en_US
dc.subject Socio-economic aspects en_US
dc.subject.lcsh Regression analysis en_US
dc.subject.lcsh Puerto Rico -- Economics conditions -- Statistics en_US
dc.subject.lcsh Regression analysis -- Mathematical models en_US
dc.subject.lcsh Correlation (Statistics) en_US
dc.title Aplicación de las técnicas de componentes principales y componentes independientes como herramientas en los métodos de regresión lineal múltiple y clasificación no supervisada a partir de variables socio-económicas de Puerto Rico en_US
dc.title.alternative Application of principal components and independent components technique as tools in the methods of multiple linear regression and unsupervised classification for socio-economic variables of Puerto Rico en_US
dc.type Thesis en_US
dspace.entity.type Publication
thesis.degree.discipline Mathematical Statistics en_US
thesis.degree.level M.S. en_US
Files
Original bundle
Now showing 1 - 1 of 1
Thumbnail Image
Name:
MATE-CabreraCruzG_2015.pdf
Size:
8.81 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.64 KB
Format:
Item-specific license agreed upon to submission
Description: