Publication:
Classifying disease-related tweets in the Twitter Health Surveillance System

Thumbnail Image
Authors
Garzón Alfonso, Cristian C.
Embargoed Until
Advisor
Rodríguez Martínez, Manuel
College
College of Engineering
Department
Department of Electrical and Computer Engineering
Degree Level
M.S.
Publisher
Date
2018-12-05
Abstract
Public health offcials, hospital directors, and other professionals related with health disciplines have to track and report disease outbreaks that affect populations around the world. Often, the data comes in reports and Comma Separated Values (CSV) files from hospitals, and private doctor's offces. Typically, these reports are generated manually, increasing the risk of human error contained in transcript, analysis, charts, and different indicators that are used by professional organizations such as the United States (US) Center for Disease Control (CDC), World Health Organization (WHO) or US Health & Human Services (HHS). The processing and understanding of all these data might take weeks and the offcial warnings to a population could arrive too late. Poor and undeserved communities normally are highly affected since limited access to medical services often means that medical care attends the outbreaks when the major part of the community is already affected. In this research we present the Twitter Health Surveillance (THS) application framework. THS is designed as an integrated platform to help health offcials collect tweets, determine if they are related with a medical condition, extract metadata out of them, and create a big data warehouse that can be used to further analyze the data. THS is built atop open source tools and provides the following value added services: Data Acquisition, Tweet Classification, and Big Data Warehousing. In order to validate THS, we have created a collection of roughly twelve thousands labelled tweets. These tweets contain one or more target medical terms, and the labels indicate if the tweet is related or not to a medical condition. We used this collection to test various machine learning models based on Recurrent and Convolutional Neural Networks. Our experiments show that we can classify tweets with 96% precision, 91% recall, and 86% F1 score. These results compare favorably with recent research on this area, and show the promise of our THS system.

Oficiales de salud pública, directores de hospitales, y otros profesionales relacionados con disciplinas del área de salud, tienen que proveer seguimiento y reportar brotes de enfermedades, que afectan a las poblaciones alrededor del mundo. Típicamente, estos reportes son generados manualmente, incrementando el riesgo del error humano en la transcripción, análisis, ilustración y diferentes indicadores que son usados por organizaciones profesionales como el Centro de Control de Enfermedades de los Estados Unidos de Norteamérica (CDC), la Organización Mundial de la Salud (WHO) o por el Departamento de Salud y Servicios Humanos de los Estados Unidos de Norteamérica (HHS). El procesamiento y entendimiento de toda esta data puede tardar unas semanas y las alertas de oficiales pueden llegar muy tarde a la población. Las comunidades más pobres y desamparadas normalmente están altamente afectadas debido a las limitaciones para acceder a los servicios médicos, y muchas veces esto significa que el personal médico atiende los brotes muy tarde, cuando la mayor parte de la comunidad ya está afectada. En esta investigación presentamos Twitter Health Surveillance (THS) como una aplicación de referencia. THS está dise~nada como una plataforma integrada para ayudar a los oficiales de salud en la recolección de tweets, determinando si estos están relacionados con una condición médica, extraer los metadatos y crear la bodega de grandes datos, que pueden ser usados para un futuro análisis de los mismos. THS está construido con herramientas de acceso libre y provee los siguientes servicios de valor agregado: adquisición de los datos, clasificación de los tweets y almacenamiento de grandes datos. Con el fin de validar THS, nosotros creamos una colección de aproximadamente doce mil tweets etiquetados en base a términos médicos. Estos tweets contienen uno o más términos médicos específicos y las etiquetas indicando si el tweet está relacionado con una condición médica o no. Nosotros usamos esta colección para probar varios modelos de aprendizaje automático, modelos basados en redes neuronales recurrentes y convolucionales. Nuestros experimentos muestran que nosotros podemos clasificar tweets con 96% de precisión, 91 % de recall y 86% de F1 Score. Estos resultados comparan favorablemente con las investigaciones recientes en esta área y muestran la promesa de nuestro sistema THS para identificar que mensajes están realmente relacionados con condiciones médicas.
Keywords
Big Data,
Big Data Streaming,
Deep Learning,
Disease Detection,
Classification Model
Cite
Garzón Alfonso, C. C. (2018). Classifying disease-related tweets in the Twitter Health Surveillance System [Thesis]. Retrieved from https://hdl.handle.net/20.500.11801/1923