Publication:
Machine learning tools for detecting tweets related to vehicle crashes

Thumbnail Image
Authors
Cotrina-Revilla, Jessica
Embargoed Until
Advisor
Rodríguez-Martínez, Manuel
College
College of Engineering
Department
Department of Electrical and Computer Engineering
Degree Level
M.E.
Publisher
Date
2018
Abstract
Vehicle crashes are a global problem that occur each day. They happen due to environmental factors, the state of the road and bad maneuvers performed by drivers. Information about vehicle crashes is published on social networks by people that have been involved in a traffic accident either directly or indirectly. In these social networks, users publish that information so that they can let friends and family know about the incident or just to comment in general about it. One of the most popular social networks is Twitter, which has 330 million monthly active users around the world. The information gathered from Twitter has helped to identify people who were trapped during some natural disaster, identifying diseases, organizing protests etc. Using data collected from Twitter, the purpose of this work is to determine if a tweet coming from a real-time flow refers to a vehicular crash or not. With the benefit of obtaining a diagnostic of how many vehicle crashes occur within a given time frame based on Twitter data. This diagnostic lets researchers interested in traffic accidents, for example, determine in which places happen more vehicle crashes. To implement this, we use a set of tweets that contain keywords related to vehicle crashes. With the help of a professor and two students from Department of Civil Engineering and Surveying of the University of Puerto Rico at Mayagüez, the tweets were labeled to determine if each tweet in the data set is about a real vehicle accident or not. These classified tweets are then converted into the training data set, to produce a model for the classification of accident tweets. Once this process is completed, automatic learning tools and techniques (ML) are used, for example, logistic regression, to form a model for classifying tweets. Once this model is ready, we can use it to determine if a tweet of a real-time transmission of tweets is related to a vehicle crash. Finally, the trends per day in these tweets can be displayed in a web dashboard.

Los choques vehiculares son un problema mundial que ocurre cada día. Estos se deben a factores ambientales, el estado de la carreta y malas maniobras realizadas por parte del conductor. Algunas de las personas que han estado involucradas en un accidente vehicular de manera directa o indirecta publican en sus redes sociales el hecho, para que algún familiar o amigo los pueda ayudar, o comentando sobre lo sucedido. Una de las redes sociales más utilizada es Twitter, ya que cuenta con 330 millones de usuarios activos mensuales en todo el mundo. La información que se brinda mediante esta red social ha servido para: identificar personas atrapadas en algún desastre natural, enfermedades, organizar protestas, etc. En este trabajo se propone hacer uso de herramientas de ‘machine learning’ y Twitter. Mediante una colección de datos, el propósito de este trabajo es determinar si un tweet procedente de un flujo de tiempo real se refiere a un choque vehicular o no. Con el beneficio de tener un diagnóstico sobre cuantos choques de vehículos ocurren en un determinado tiempo basándonos en datos de Twitter. Este diagnóstico puede permitir a personas interesadas en conducir estudios relacionados a choques de vehículos, como por ejemplo: identificar en qué lugares ocurren más estos choques. Para implementar esto, se recopilará un conjunto de datos de tweets que contienen palabras claves relacionadas a accidentes vehiculares. Con la ayuda de una profesora y dos estudiantes del Departamento de Ingeniería Civil y Agrimensura de la Universidad de Puerto Rico en Mayagüez, los tweets serán etiquetados para determinar si cada tweet en el conjunto de datos es acerca de un accidente de vehículo real o no. Estos tweets clasificados se convertirán en el conjunto de datos de entrenamiento, para producir un modelo para la clasificación de tweets sobre accidentes. Una vez finalizado este proceso, se utilizarán herramientas y técnicas de aprendizaje automático (ML en inglés), por ejemplo, regresión logística, para formar un modelo para clasificar tweets. Una vez que este modelo está listo, podemos usarlo para determinar si un tweet de una transmisión en tiempo real de tweets está relacionado con un choque de vehículo. Finalmente, las tendencias por día en estos tweets se mostrarán en un panel web.
Keywords
Vehicle crashes,
Twitter,
Logistic regression
Cite
Cotrina-Revilla, J. (2018). Machine learning tools for detecting tweets related to vehicle crashes [Project Report]. Retrieved from https://hdl.handle.net/20.500.11801/1689