Publication:
Applied predictive modeling on personal key indicators of heart disease for residents of the United States

dc.contributor.advisor Lorenzo González, Edgardo
dc.contributor.author Colón Vargas, Mónica
dc.contributor.college College of Arts and Sciences - Sciences
dc.contributor.committee Santana Morant, Dámaris
dc.contributor.committee Colón Ramírez, Silvestre
dc.contributor.department Department of Mathematics
dc.contributor.representative Andrade Rengifo, Fabio
dc.date.accessioned 2023-05-18T13:51:58Z
dc.date.available 2023-05-18T13:51:58Z
dc.date.issued 2023-05-11
dc.description.abstract Heart disease (HD) is considered one of the leading causes of death in the United States. According to the CDC, in 2020, approximately 697,000 people in the US, died from HD. Many studies have shown a variety of risk factors for HD. Some include high cholesterol, smoking, high blood pressure, obesity, diabetes, kidney disease, and more. Additionally, demographics like race and sex have been found to increase the risk for HD. In this study, the goal is to implement predicting modeling tools to build a model that predicts HD based on some personal key indicators. Since an individual can self-measure the predictors, the built model will allow the prediction of HD without the requirement of a medical exam. The HD data set was obtained from the Centers for Disease Control and Prevention (CDC) consisting of n= 319,795 observations and p=17 predictors. The data set has a very imbalanced structure, resulting in increasing the difficulty to obtain a good model. To deal with the imbalance problem, re-sampling techniques (Upsampling, SMOTE, and downsampling) were applied to obtain a balanced data set. After evaluating the re-sampling techniques, upsampling was chosen to deal with the imbalance. Simple models were fit to the data to predict HD and then different techniques to improve the models were tried. Bagging, boosting, and regularization, which introduce bias to the model and decrease the variance, were used. The methods used to model HD consisted of four linear methods (logistic regression, Ridge, LASSO, and Elastic Net logistic regression) and four tree-based methods (Decision Tree, Random Forests, AdaBoost, and XGBoost). Among the variables considered, XGBoost was demonstrated to be more effective in terms of AUC in predicting HD. Therefore, a weighted XGBoost model was fitted to the data, without the upsampling technique. The purpose was to study how weights affect the imbalance in the data set. It was concluded that a weighted XGBoost model is more effective to predict HD with the variables studied.
dc.description.abstract La enfermedad cardíaca (HD) se considera una de las principales causas de muerte en los Estados Unidos. Segun el CDC, en el año 2020, aproximadamente 697,000 personas en los EE. UU. murieron a causa de la HD. Muchos estudios han mostrado una variedad de factores de riesgo para la HD. Algunos incluyen colesterol alto, tabaquismo, presión arterial alta, obesidad, diabetes, enfermedad renal y más. Además, se ha descubierto que los datos demográficos como la raza y el sexo aumentan el riesgo de HD. En este estudio, el objetivo es implementar herramientas de modelado de predicción para construir un modelo que prediga la HD en función de algunos indicadores clave personales. Dado que un individuo puede automedir los predictores, el modelo construido permitirá la predicción de HD sin el requisito de un examen médico. El conjunto de datos de HD se obtuvo de los Centros para el Control y la Prevención de Enfermedades (CDC) y consta de n=319,795 observaciones y p=17 predictores. El conjunto de datos tiene una estructura muy desequilibrada, lo que aumenta la dificultad para obtener un buen modelo. Para hacer frente al problema del desequilibrio, se aplicaron técnicas de remuestreo (Sobremuestreo, SMOTE y Bajomuestreo) para obtener un conjunto de datos equilibrado. Después de evaluar las técnicas de remuestreo, se eligió el sobremuestreo para tratar el desequilibrio. Modelos simples se ajustaron a los datos para predecir HD y luego diferentes técnicas para mejorar los modelos se implementaton. Baging, boosting y regularización, que introducen sesgos en el modelo y reducen la varianza, se utilizaron. Los métodos utilizados para modelar HD constaron de cuatro métodos lineales (regresión logística, Ridge, LASSO y regresión logística de red elástica) y cuatro métodos basados en arboles (árbol de decisión, bosques aleatorios, AdaBoost y XGBoost). Se demostró que XGBoost es más efectivo, considerando nuestras variables, en términos de AUC en la predicción de HD. Por lo tanto, se ajustó un modelo XGBoost ponderado a los datos, sin la técnica de sobremuestreo. El propósito fue estudiar cómo los pesos afectan el desequilibrio en el conjunto de datos. Se concluyó que un modelo XGBoost ponderado es más efectivo para predecir la HD con nuestras variables.
dc.description.graduationSemester Spring
dc.description.graduationYear 2023
dc.identifier.uri https://hdl.handle.net/20.500.11801/3503
dc.language.iso en
dc.rights Attribution-NonCommercial-NoDerivatives 4.0 International *
dc.rights.holder (c) 2023 Mónica Colón Vargas
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/4.0/ *
dc.subject Heart disease
dc.subject Regularization
dc.subject XGBoost
dc.subject Class Imbalance
dc.subject.lcsh Logistic regression analysis
dc.subject.lcsh Heart - Diseases - Statistics
dc.subject.lcsh Heart - Diseases - Risk factors - Mathematical models
dc.subject.lcsh Heart - Diseases - Mathematical models
dc.title Applied predictive modeling on personal key indicators of heart disease for residents of the United States
dc.type Thesis
dspace.entity.type Publication
thesis.degree.discipline Mathematical Statistics
thesis.degree.level M.S.
Files