Una arquitectura de aprendizaje profundo multimodal basada en ViT para la clasificación binaria de accidentes de tráfico

Ríos Pérez, Jesús David; Sánchez Torres, German; Henriquez Miranda, Carlos

Repositorio Institucional Universidad de Pamplona

Producción Editorial Universidad de Pamplona

Revista Colombiana de Tecnologias de Avanzada (RCTA)

Por favor, use este identificador para citar o enlazar este ítem: http://repositoriodspace.unipamplona.edu.co/jspui/handle/20.500.12744/10379

Título :	Una arquitectura de aprendizaje profundo multimodal basada en ViT para la clasificación binaria de accidentes de tráfico
Otros títulos :	A Multi-Modal ViT-Based Deep Learning Architecture for Binary Classification of Traffic Accident
Autor :	Ríos Pérez, Jesús David Sánchez Torres, German Henriquez Miranda, Carlos
Palabras clave :	multimodal aprendizaje profundo transformadores visuales accidentes de tránsito
Fecha de publicación :	1-ene-2025
Editorial :	Aldo Pardo García, Revista Colombiana de Tecnologías de Avanzada, Universidad de Pamplona.
Citación :	J. D. Ríos Pérez, G. Sánchez Torres, y C. Henríquez Miranda, «Una arquitectura de aprendizaje profundo multimodal basada en ViT para la clasificación binaria de accidentes de tráfico», RCTA, vol. 1, n.º 45, pp. 225–239, may 2025. https://doi.org/10.24054/rcta.v1i45.3751
Citación :	225;239
Resumen :	Each year, more than 1 million people die due to traffic accidents, and one-third of these lives could be saved by reducing medical response time. Multi-Modal Deep Learning (MMDL) has emerged in recent years as a powerful tool that integrates different types of data to enhance decision-making capabilities in models. Additionally, Vision Transformers (ViT) are a Deep Learning approach for processing images and videos that has shown promising results in various fields of knowledge. In this project, we propose a ViT-based architecture for binary classification of traffic accidents using data from multiple sources, such as environmental data and images. The integration of an MMDL approach based on ViT can improve the model's accuracy in classifying accidents and non-accidents. This project explores a MMDL approach integrating ViT for traffic accident monitoring in the context of smart cities, achieving a recall of 91%, which evidences a high robustness of the model in identifying positive cases. However, the scarcity of multimodal data represents a major challenge for training these types of models.
Descripción :	Cada año, más de un millón de personas mueren debido a accidentes de tráfico, y un tercio de estas vidas podrían salvarse reduciendo el tiempo de respuesta médica. El aprendizaje profundo multimodal (MMDL) ha surgido en los últimos años como una poderosa herramienta que integra diferentes tipos de datos para mejorar las capacidades de toma de decisiones en los modelos. Además, los Transformadores Visuales (ViT) son un enfoque de aprendizaje profundo para procesar imágenes y videos que ha mostrado resultados prometedores en varias áreas del conocimiento. En este proyecto, proponemos una arquitectura basada en ViT para la clasificación binaria de accidentes de tráfico utilizando datos de múltiples fuentes, como datos ambientales e imágenes. La integración de un enfoque MMDL basado en ViT puede mejorar la precisión del modelo en la clasificación de accidentes y no accidentes. Este proyecto explora un enfoque MMDL integrando ViT para la monitorización de accidentes de tráfico en el contexto de las ciudades inteligentes, logrando un recall del 91%, lo que evidencia una alta robustez del modelo en la identificación de casos positivos. Sin embargo, la escasez de datos multimodales representa un gran desafío para el entrenamiento de este tipo de modelos.
URI :	http://repositoriodspace.unipamplona.edu.co/jspui/handle/20.500.12744/10379
ISSN :	1692-7257 2500-8625
Aparece en las colecciones:	Revista Colombiana de Tecnologias de Avanzada (RCTA)

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Art22_V1_N45_2025_esp.pdf	Art22_V1_N45_2025_esp	466,03 kB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

DSpace JSPUI

DSpace almacena y facilita el acceso abierto a todo tipo de contenido digital incluyendo texto, imágenes, vídeos y colecciones de datos.