Show simple item record

dc.contributor.advisorRodriguez Martinez, Manuel
dc.contributor.authorGarzon Alfonso, Cristian Camilo
dc.date.accessioned2019-04-15T12:17:34Z
dc.date.available2019-04-15T12:17:34Z
dc.date.issued2018-12-05
dc.identifier.urihttps://hdl.handle.net/handle/20.500.11801/1923
dc.description.abstractPublic health offcials, hospital directors, and other professionals related with health disciplines have to track and report disease outbreaks that affect populations around the world. Often, the data comes in reports and Comma Separated Values (CSV) files from hospitals, and private doctor's offces. Typically, these reports are generated manually, increasing the risk of human error contained in transcript, analysis, charts, and different indicators that are used by professional organizations such as the United States (US) Center for Disease Control (CDC), World Health Organization (WHO) or US Health & Human Services (HHS). The processing and understanding of all these data might take weeks and the offcial warnings to a population could arrive too late. Poor and undeserved communities normally are highly affected since limited access to medical services often means that medical care attends the outbreaks when the major part of the community is already affected. In this research we present the Twitter Health Surveillance (THS) application framework. THS is designed as an integrated platform to help health offcials collect tweets, determine if they are related with a medical condition, extract metadata out of them, and create a big data warehouse that can be used to further analyze the data. THS is built atop open source tools and provides the following value added services: Data Acquisition, Tweet Classification, and Big Data Warehousing. In order to validate THS, we have created a collection of roughly twelve thousands labelled tweets. These tweets contain one or more target medical terms, and the labels indicate if the tweet is related or not to a medical condition. We used this collection to test various machine learning models based on Recurrent and Convolutional Neural Networks. Our experiments show that we can classify tweets with 96% precision, 91% recall, and 86% F1 score. These results compare favorably with recent research on this area, and show the promise of our THS system.en_US
dc.description.abstractOficiales de salud pública, directores de hospitales, y otros profesionales relacionados con disciplinas del área de salud, tienen que proveer seguimiento y reportar brotes de enfermedades, que afectan a las poblaciones alrededor del mundo. Típicamente, estos reportes son generados manualmente, incrementando el riesgo del error humano en la transcripción, análisis, ilustración y diferentes indicadores que son usados por organizaciones profesionales como el Centro de Control de Enfermedades de los Estados Unidos de Norteamérica (CDC), la Organización Mundial de la Salud (WHO) o por el Departamento de Salud y Servicios Humanos de los Estados Unidos de Norteamérica (HHS). El procesamiento y entendimiento de toda esta data puede tardar unas semanas y las alertas de oficiales pueden llegar muy tarde a la población. Las comunidades más pobres y desamparadas normalmente están altamente afectadas debido a las limitaciones para acceder a los servicios médicos, y muchas veces esto significa que el personal médico atiende los brotes muy tarde, cuando la mayor parte de la comunidad ya está afectada. En esta investigación presentamos Twitter Health Surveillance (THS) como una aplicación de referencia. THS está dise~nada como una plataforma integrada para ayudar a los oficiales de salud en la recolección de tweets, determinando si estos están relacionados con una condición médica, extraer los metadatos y crear la bodega de grandes datos, que pueden ser usados para un futuro análisis de los mismos. THS está construido con herramientas de acceso libre y provee los siguientes servicios de valor agregado: adquisición de los datos, clasificación de los tweets y almacenamiento de grandes datos. Con el fin de validar THS, nosotros creamos una colección de aproximadamente doce mil tweets etiquetados en base a términos médicos. Estos tweets contienen uno o más términos médicos específicos y las etiquetas indicando si el tweet está relacionado con una condición médica o no. Nosotros usamos esta colección para probar varios modelos de aprendizaje automático, modelos basados en redes neuronales recurrentes y convolucionales. Nuestros experimentos muestran que nosotros podemos clasificar tweets con 96% de precisión, 91 % de recall y 86% de F1 Score. Estos resultados comparan favorablemente con las investigaciones recientes en esta área y muestran la promesa de nuestro sistema THS para identificar que mensajes están realmente relacionados con condiciones médicas.en_US
dc.description.sponsorshipThis research is supported by the US National Library of Medicine of the National Institutes of Health (NIH) under award number R15LM012275.en_US
dc.language.isoenen_US
dc.subjectBig Dataen_US
dc.subjectBig Data Streamingen_US
dc.subjectDeep Learningen_US
dc.subjectDisease Detectionen_US
dc.subjectClassification Modelen_US
dc.subject.lcshBig dataen_US
dc.subject.lcshLive streamingen_US
dc.subject.lcshMachine learningen_US
dc.subject.lcshAlgorithmsen_US
dc.subject.lcshSocial media in medicineen_US
dc.subject.lcshMedical innovationsen_US
dc.titleClassifying disease-related tweets in the Twitter Health Surveillance Systemen_US
dc.typeThesisen_US
dc.rights.licenseAll rights reserveden_US
dc.rights.holder(c) 2018 by Cristian Camilo Garzon Alfonsoen_US
dc.contributor.committeeRivera Gallego, Wilson
dc.contributor.committeeRivera Vega, Pedro
dc.contributor.representativeHernandez, William
thesis.degree.levelM.S.en_US
thesis.degree.disciplineComputer Engineeringen_US
dc.contributor.collegeCollege of Engineeringen_US
dc.contributor.departmentDepartment of Electrical and Computer Engineeringen_US
dc.description.graduationSemesterSpringen_US
dc.description.graduationYear2019en_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

  • Theses & Dissertations
    Items included under this collection are theses, dissertations, and project reports submitted as a requirement for completing a degree at UPR-Mayagüez.

Show simple item record

All rights reserved
Except where otherwise noted, this item's license is described as All Rights Reserved