Loading...
Multimodal detection of anxiety episodes using wearable device, physiological, and facial emotion recognition
Lizana Vásquez, Paola J.
Lizana Vásquez, Paola J.
Citations
Altmetric:
Abstract
This work presents a multimodal system for real-time anxiety detection by integrating physiological and emotional information using deep learning models and computer vision. The physiological component was trained with a CNN-BiLSTM model using heart rate (HR), heart rate variability (HRV), and respiratory rate (RR) extracted from photoplethysmographic (PPG) signals obtained from clinical databases. In parallel, YOLOv8 was retrained for facial emotion detection using public emotion recognition datasets.
Both models were integrated into a smartphone and smartwatch app. The watch captures HR, HRV, and RR every 5 seconds and sends them to the phone, while the phone simultaneously obtains real-time facial emotion data. After one minute, the system merges the physiological and emotional information to identify matches or possible inconsistencies. The results showed a 94.3% accuracy and an AUC = 0.985 in the physiological model, and a mAP@0.5 = 91.9% in the visual model, validating the effectiveness of the multimodal system for detecting anxiety episodes even in telecommunication scenarios. The proposed system offers a non-invasive and accurate solution for continuous emotional monitoring, contributing to the advancement of technologies applied to mental health.
Este trabajo presenta un sistema multimodal para la detección de ansiedad en tiempo real mediante la integración de información fisiológica y emocional, que emplea modelos de aprendizaje profundo y de visión por computadora. El componente fisiológico se entrenó con un modelo CNN-BiLSTM utilizando la frecuencia cardíaca (HR), la variabilidad de la frecuencia cardíaca (HRV) y la frecuencia respiratoria (RR) extraídas de señales fotopletismográficas (PPG) provenientes de bases de datos clínicas. En paralelo, se reentrenó YOLOv8 para la detección de emociones faciales utilizando bases públicas de reconocimiento emocional. Ambos modelos se integraron en una aplicación para teléfonos y relojes inteligentes. El reloj captura HR, HRV y RR cada 5 segundos y los envía al teléfono, mientras que este también recibe simultáneamente la información de emoción facial en tiempo real. Transcurrido un minuto, el sistema fusiona la información fisiológica y emocional para identificar coincidencias o posibles incongruencias. Los resultados mostraron una precisión del 94,3 % y un AUC = 0,985 en el modelo fisiológico y un mAP@0,5 = 91,9 % en el modelo visual, lo que valida la efectividad del sistema multimodal para detectar episodios de ansiedad incluso en escenarios de telecomunicación. El sistema propuesto ofrece una solución no invasiva y precisa para el monitoreo emocional continuo, contribuyendo al avance de las tecnologías aplicadas a la salud mental. Palabras clave: ansiedad, aprendizaje profundo, PPG, YOLOv8, CNN-BiLSTM, emociones, monitoreo en tiempo real.
Este trabajo presenta un sistema multimodal para la detección de ansiedad en tiempo real mediante la integración de información fisiológica y emocional, que emplea modelos de aprendizaje profundo y de visión por computadora. El componente fisiológico se entrenó con un modelo CNN-BiLSTM utilizando la frecuencia cardíaca (HR), la variabilidad de la frecuencia cardíaca (HRV) y la frecuencia respiratoria (RR) extraídas de señales fotopletismográficas (PPG) provenientes de bases de datos clínicas. En paralelo, se reentrenó YOLOv8 para la detección de emociones faciales utilizando bases públicas de reconocimiento emocional. Ambos modelos se integraron en una aplicación para teléfonos y relojes inteligentes. El reloj captura HR, HRV y RR cada 5 segundos y los envía al teléfono, mientras que este también recibe simultáneamente la información de emoción facial en tiempo real. Transcurrido un minuto, el sistema fusiona la información fisiológica y emocional para identificar coincidencias o posibles incongruencias. Los resultados mostraron una precisión del 94,3 % y un AUC = 0,985 en el modelo fisiológico y un mAP@0,5 = 91,9 % en el modelo visual, lo que valida la efectividad del sistema multimodal para detectar episodios de ansiedad incluso en escenarios de telecomunicación. El sistema propuesto ofrece una solución no invasiva y precisa para el monitoreo emocional continuo, contribuyendo al avance de las tecnologías aplicadas a la salud mental. Palabras clave: ansiedad, aprendizaje profundo, PPG, YOLOv8, CNN-BiLSTM, emociones, monitoreo en tiempo real.
Description
Date
2025-12-16
Journal Title
Journal ISSN
Volume Title
Publisher
Collections
Files
ICOM_LizanaVasquezPJ_2025.pdf
Adobe PDF, 4.51 MB
- Embargoed until 2027-12-31
Keywords
Anxiety, Deep learning, PPG, YOLOv8, CNN-BiLSTM, Emotions, Real-time monitoring
