Explora I+D+i UPV

Volver atrás Proyecto

DOBLAJE AUTOMÁTICO CROSLINGÜE EN TIEMPO REAL DE CONTENIDO EDUCATIVO Y PARLAMENTARIO

Institut Universitari Valencià d'investigació en Intel·ligència Artificial

Compartir
Año de inicio

2022

Organismo financiador

AGENCIA ESTATAL DE INVESTIGACION

Tipo de proyecto

INV. COMPETITIVA PROYECTOS

Responsable científico

Sanchis Navarro José Alberto

Resumen

Una de las motivaciones principales en la actualidad de la utilización de Internet es el consumo de vídeos online, cuyo acceso se estima que represente sobre el 82% de todo el tráfico de internet en 2022. Esta tendencia imparable ha provocado un rápido aumento en todo el mundo de servicios de internet basados en plataformas digitales que ofrecen compartición de vídeos y visualización en streaming. Sin embargo, aproximadamente el 63% del contenido en internet está solo disponible en inglés lo que supone en la práctica una barrera lingüística que impide un acceso amplio a estos contenidos. Una manera de superar esta importante barrera lingüística es producir contenido audiovisual multilíngüe de calidad suficiente para su publiación en escala y a bajo coste. Esto es posible conseguirlo gracias a la generación automática de transcripciones y traducciones utilizando, para ello, herramientas actuales de IA como el Reconocimiento Automático del Habla (RAH) y la Traducción Automática (TA). Esta aproximación directa ha sido aplicada con éxito por el grupo de investigación MLLP en el contexto de diferentes proyectos y, a día de hoy, podemos concluir que la tecnología de RAH y TA ha alcanzado la madurez necesaria para producir transcripciones y traducciones multilíngües de calidad suficiente para ser directamente publicables incluso bajo condiciones de streaming. Al mismo tiempo, los sistemas de síntesis de voz (TTS) han experimentado recientemente mejoras significativas en términos de calidad, flexibilidad y capacidades, lo que habilita la clonación croslingüe de voz incluso para lenguas que el hablante no conoce. En base a estos recientes e importantes avances en las herramientas de IA, el principal objetivo del proyecto será desarrollar un sistema de traducción de habla siguiendo una aproximación en cascada, con el fin de implementar doblaje automático croslingüe en tiempo real de contenido audiovisual educativo y parlamentario. De este modo, dos importantes retos de la sociedad como son la Educación Abierta y la Apertura Parlamentaria serán directamente beneficiados de los resultados del proyecto. La tecnología desarrollada será probada en tres casos de estudio piloto: objetos audiovisuales de aprendizaje, que consisten en vídeos cortos pre-grabados bajo condiciones de alta calidad; grabaciones de clases de aula y en directo que están siendo muy utilizadas por las Universidades de todo el mundo especialmente desde el comienzo de la pandemia COVID-19; y debates parlamentarios que están siendo ofrecidos cada vez más mediante herramientas de vídeo y streaming por los parlamentos con el fin de acercar la actividad parlamentaria a la ciudadanía. Los resultados del proyecto tendrán un impacto significativo en la amplia difusión de los recursos audiovisuales ofrecidos actualmente por las plataformas e infraestructuras educativas y parlamentarias independientemente de la lengua materna. La tecnología desarrollada traerá también avances importantes en áreas muy activas de investigación como es el RAH, TA, TTS y traducción de habla. Además, la aproximación propuesta posee un alto potencial de aplicación a muchos otros escenarios más allá del contexto educativo y parlamentario.