Loading...
Thumbnail Image
Publication

Applied predictive modeling on personal key indicators of heart disease for residents of the United States

Colón Vargas, Mónica
Citations
Altmetric:
Abstract
Heart disease (HD) is considered one of the leading causes of death in the United States. According to the CDC, in 2020, approximately 697,000 people in the US, died from HD. Many studies have shown a variety of risk factors for HD. Some include high cholesterol, smoking, high blood pressure, obesity, diabetes, kidney disease, and more. Additionally, demographics like race and sex have been found to increase the risk for HD. In this study, the goal is to implement predicting modeling tools to build a model that predicts HD based on some personal key indicators. Since an individual can self-measure the predictors, the built model will allow the prediction of HD without the requirement of a medical exam. The HD data set was obtained from the Centers for Disease Control and Prevention (CDC) consisting of n= 319,795 observations and p=17 predictors. The data set has a very imbalanced structure, resulting in increasing the difficulty to obtain a good model. To deal with the imbalance problem, re-sampling techniques (Upsampling, SMOTE, and downsampling) were applied to obtain a balanced data set. After evaluating the re-sampling techniques, upsampling was chosen to deal with the imbalance. Simple models were fit to the data to predict HD and then different techniques to improve the models were tried. Bagging, boosting, and regularization, which introduce bias to the model and decrease the variance, were used. The methods used to model HD consisted of four linear methods (logistic regression, Ridge, LASSO, and Elastic Net logistic regression) and four tree-based methods (Decision Tree, Random Forests, AdaBoost, and XGBoost). Among the variables considered, XGBoost was demonstrated to be more effective in terms of AUC in predicting HD. Therefore, a weighted XGBoost model was fitted to the data, without the upsampling technique. The purpose was to study how weights affect the imbalance in the data set. It was concluded that a weighted XGBoost model is more effective to predict HD with the variables studied.
La enfermedad cardíaca (HD) se considera una de las principales causas de muerte en los Estados Unidos. Segun el CDC, en el año 2020, aproximadamente 697,000 personas en los EE. UU. murieron a causa de la HD. Muchos estudios han mostrado una variedad de factores de riesgo para la HD. Algunos incluyen colesterol alto, tabaquismo, presión arterial alta, obesidad, diabetes, enfermedad renal y más. Además, se ha descubierto que los datos demográficos como la raza y el sexo aumentan el riesgo de HD. En este estudio, el objetivo es implementar herramientas de modelado de predicción para construir un modelo que prediga la HD en función de algunos indicadores clave personales. Dado que un individuo puede automedir los predictores, el modelo construido permitirá la predicción de HD sin el requisito de un examen médico. El conjunto de datos de HD se obtuvo de los Centros para el Control y la Prevención de Enfermedades (CDC) y consta de n=319,795 observaciones y p=17 predictores. El conjunto de datos tiene una estructura muy desequilibrada, lo que aumenta la dificultad para obtener un buen modelo. Para hacer frente al problema del desequilibrio, se aplicaron técnicas de remuestreo (Sobremuestreo, SMOTE y Bajomuestreo) para obtener un conjunto de datos equilibrado. Después de evaluar las técnicas de remuestreo, se eligió el sobremuestreo para tratar el desequilibrio. Modelos simples se ajustaron a los datos para predecir HD y luego diferentes técnicas para mejorar los modelos se implementaton. Baging, boosting y regularización, que introducen sesgos en el modelo y reducen la varianza, se utilizaron. Los métodos utilizados para modelar HD constaron de cuatro métodos lineales (regresión logística, Ridge, LASSO y regresión logística de red elástica) y cuatro métodos basados en arboles (árbol de decisión, bosques aleatorios, AdaBoost y XGBoost). Se demostró que XGBoost es más efectivo, considerando nuestras variables, en términos de AUC en la predicción de HD. Por lo tanto, se ajustó un modelo XGBoost ponderado a los datos, sin la técnica de sobremuestreo. El propósito fue estudiar cómo los pesos afectan el desequilibrio en el conjunto de datos. Se concluyó que un modelo XGBoost ponderado es más efectivo para predecir la HD con nuestras variables.
Description
Date
2023-05-11
Journal Title
Journal ISSN
Volume Title
Publisher
Research Projects
Organizational Units
Journal Issue
Keywords
Heart disease, Regularization, XGBoost, Class Imbalance
Citation
Embedded videos