Loading...
Real-time American sign language recognition system using convolutional neural network
Gómez Arenas, Andrea C.
Gómez Arenas, Andrea C.
Citations
Altmetric:
Abstract
Sign language, as the primary form of communication used by the deaf and hard of hearing community, relies on hand gestures to facilitate communication both within the community and with others. However, communication between a deaf person and someone who doesn’t understand sign language can be very challenging. To bridge this gap, technology can be a valuable tool. Sign language recognition (SLR) is a field within computer vision that focuses on developing systems that can interpret hand gestures and translate them into spoken or written language in real time. This is particularly complex due to the need for high precision and fast response times. In this context, this study introduces a real-time system for recognizing American Sign Language (ASL) using YOLO models, offering a potential solution to improve communication between these groups. YOLO models renowned for speed and precision in object detection is a excellent choice for this challenge. The models demonstrated outstanding performance, achieving an accuracy between 93.7% in worse case and 94.4% in best case, coupled with impressive speed, boasting an average inference time between 2.8 and 3.2 milliseconds. This makes the models suitable for applications in real-time translation. Experimental results highlight the models’ ability to accurately and swiftly recognize ASL signs, showing great potential for enhancing communication and accessibility within the ASL community.
El lenguaje de se˜nas es la principal forma de comunicaci´on utilizada por la comunidad sorda e hipoac´usica, ya que se basa en gestos manuales para transmitir mensajes de manera efectiva. Sin embargo, la comunicaci´on entre una persona sorda y alguien que no conoce este lenguaje puede resultar dif´ıcil. En este contexto, la tecnolog´ıa ofrece una herramienta valiosa para reducir esta barrera. El reconocimiento de lenguaje de se˜nas (SLR, por sus siglas en ingl´es) es un ´area de la visi´on por computadora que busca desarrollar sistemas capaces de interpretar los gestos de las manos y traducirlos en lenguaje hablado o escrito en tiempo real. Esta tarea es especialmente compleja, ya que requiere alta precisi´on y tiempos de respuesta muy cortos. En este estudio se presenta un sistema en tiempo real para el reconocimiento del Lenguaje de Se˜nas Americano (ASL) utilizando modelos YOLO, conocidos por su rapidez y precisi´on en tareas de detecci´on de objetos. Los modelos evaluados obtuvieron resultados destacados, con una precisi´on que vari´o entre el 93.7% y el 94.4%, y un tiempo de inferencia promedio entre 2.8 y 3.2 milisegundos. Estas caracter´ısticas los hacen adecuados para aplicaciones de traducci´on en tiempo real. Los resultados experimentales demuestran que los modelos son capaces de reconocer los signos del ASL de manera r´apida y precisa, mostrando un gran potencial para mejorar la comunicaci´on y la accesibilidad de las personas sordas en distintos entornos.
El lenguaje de se˜nas es la principal forma de comunicaci´on utilizada por la comunidad sorda e hipoac´usica, ya que se basa en gestos manuales para transmitir mensajes de manera efectiva. Sin embargo, la comunicaci´on entre una persona sorda y alguien que no conoce este lenguaje puede resultar dif´ıcil. En este contexto, la tecnolog´ıa ofrece una herramienta valiosa para reducir esta barrera. El reconocimiento de lenguaje de se˜nas (SLR, por sus siglas en ingl´es) es un ´area de la visi´on por computadora que busca desarrollar sistemas capaces de interpretar los gestos de las manos y traducirlos en lenguaje hablado o escrito en tiempo real. Esta tarea es especialmente compleja, ya que requiere alta precisi´on y tiempos de respuesta muy cortos. En este estudio se presenta un sistema en tiempo real para el reconocimiento del Lenguaje de Se˜nas Americano (ASL) utilizando modelos YOLO, conocidos por su rapidez y precisi´on en tareas de detecci´on de objetos. Los modelos evaluados obtuvieron resultados destacados, con una precisi´on que vari´o entre el 93.7% y el 94.4%, y un tiempo de inferencia promedio entre 2.8 y 3.2 milisegundos. Estas caracter´ısticas los hacen adecuados para aplicaciones de traducci´on en tiempo real. Los resultados experimentales demuestran que los modelos son capaces de reconocer los signos del ASL de manera r´apida y precisa, mostrando un gran potencial para mejorar la comunicaci´on y la accesibilidad de las personas sordas en distintos entornos.
Description
Date
2025-05-15
Journal Title
Journal ISSN
Volume Title
Publisher
Collections
Keywords
Computer Vision, Automatic Sing Language Recognition, Convolutional Neural Networks, YOLO Architectures, Accessibility