Explora I+D+i UPV

Volver atrás Proyecto

LECTURA DE LABIOS EN ESPAÑOL EN ESCENARIOS REALISTAS

Centro Propio de Investigación Pattern Recognition and Human Language Technology

Compartir
Año de inicio

2022

Organismo financiador

AGENCIA ESTATAL DE INVESTIGACION

Tipo de proyecto

INV. COMPETITIVA PROYECTOS

Responsable científico

Martínez Hinarejos Carlos David

Resumen

El reconocimiento del habla se realiza habitualmente mediante el procesamiento de la señal de audio asociada. Sin embargo, el habla es un proceso físico complejo con realizaciones articuladas del aparato fonador, muchas de las cuales son visibles. En este sentido, la lectura de labios es una forma alternativa de decodificación del habla que puede tener un impacto notable en su reconocimiento y comprensión. Además, para múltiples personas con problemas severos de audición, la lectura de labios es una forma fundamental de decodificar y entender el habla de otras personas. En este sentido, la decodificación automática del habla por parte de un sistema informático a partir de las imágenes del movimiento de los labios resulta una tarea de alto interés, tanto por las aplicaciones sociales que puede tener (ayudar a entender el habla a una persona con problemas de audición, permitir la síntesis de voz a personas que han perdido la fonación, ...) como por aplicaciones prácticas y de entretenimiento (mejora de los procesos de reconocimiento de voz, uso de contraseñas vocales silenciosas, transcripción de vídeos antiguos sin sonido, ...). La aproximación propuesta en este proyecto está basada en el paradigma de aprendizaje automático que ha tenido reconocido éxito en el reconocimiento de habla desde la señal de audio. En este paradigma, las relaciones entre el objeto de entrada (audio en reconocimiento de habla habitual, vídeo en caso de lectura de labios) y el objeto final (secuencia de palabras emitida) vienen dadas por un conjunto de modelos cuyos parámetros pueden ser estimados automáticamente. Esta estimación requiere del uso de ejemplos que relacione estas entradas y salidas, es decir, los audios o vídeos junto con sus transcripciones. El uso de ciertos algoritmos basados en estadística permite la estimación de los parámetros de estos modelos y su posterior uso frente a secuencias desconocidas, de las que aportarían una transcripción. En este sentido, en este proyecto se propone la generación y anotación de un conjunto de vídeos en español con sus transcripciones para formar un conjunto de datos que permita la estimación de estos modelos. Los vídeos pueden obtenerse de diversas fuentes que presenten escenarios realistas y seleccionarse para obtener el conjunto de secuencias más adecuado. Por otra parte, estos datos deberán ser adecuadamente procesados, pues la imagen en bruto contiene un exceso de información para la tarea. Se experimentarán distintas variantes de extracción de información relevante de los datos disponibles, buscando la robustez de las mismas a condiciones adversas de iluminación, fisionomía, entorno, etc. En paralelo, se estudiarán, implementarán y estimarán diversas opciones de modelos de aprendizaje automático, evaluando sus prestaciones en este conjunto de datos. Como últimos pasos, se estudiará y realizará la posibilidad de integrar el reconocimiento de lectura de labios con el de voz, y se implementará un sistema que sea capaz de hacer un reconocimiento del habla usando únicamente lectura de labios y con la combinación de voz (sistema audiovisual).