Resumen
El reconocimiento del habla se realiza habitualmente mediante el procesamiento de la señal de audio asociada. Sin embargo, el habla es
un proceso físico complejo con realizaciones articuladas del aparato fonador, muchas de las cuales son visibles. En este sentido, la
lectura de labios es una forma alternativa de decodificación del habla que puede tener un impacto notable en su reconocimiento y
comprensión. Además,
para múltiples personas con problemas severos de audición, la lectura de labios es una forma fundamental de decodificar y entender el
habla de otras personas. En este sentido, la decodificación automática del habla por parte de un sistema informático a partir de las
imágenes del movimiento de los labios resulta una tarea de alto interés, tanto por las aplicaciones sociales que puede tener (ayudar a
entender el habla a una persona con problemas de audición, permitir la síntesis de voz a personas que han perdido la fonación, ...) como
por aplicaciones prácticas y de entretenimiento (mejora de los procesos de reconocimiento de voz, uso de contraseñas vocales
silenciosas, transcripción de vídeos antiguos sin sonido, ...).
La aproximación propuesta en este proyecto está basada en el paradigma de aprendizaje automático que ha tenido reconocido éxito en el
reconocimiento de habla desde la señal de audio. En este paradigma, las relaciones entre el objeto de entrada (audio en reconocimiento
de habla habitual, vídeo en caso de lectura de labios) y el objeto final (secuencia de palabras emitida) vienen dadas por un conjunto de
modelos cuyos parámetros pueden ser estimados automáticamente. Esta estimación requiere del uso de ejemplos que relacione estas
entradas y salidas, es decir, los audios o vídeos junto con sus transcripciones. El uso de ciertos algoritmos basados en estadística permite
la estimación de los parámetros de estos modelos y su posterior uso frente a secuencias desconocidas, de las que aportarían una
transcripción.
En este sentido, en este proyecto se propone la generación y anotación de un conjunto de vídeos en español con sus transcripciones
para formar un conjunto de datos que permita la estimación de estos modelos. Los vídeos pueden obtenerse de diversas fuentes que
presenten escenarios realistas y seleccionarse para obtener el conjunto de secuencias más adecuado. Por otra parte, estos datos
deberán ser adecuadamente procesados, pues la imagen en bruto contiene un exceso de información para la tarea. Se experimentarán
distintas variantes de extracción de información relevante de los datos disponibles, buscando la robustez de las mismas a condiciones
adversas de iluminación, fisionomía, entorno, etc. En paralelo, se estudiarán, implementarán y estimarán diversas opciones de modelos
de aprendizaje automático, evaluando sus prestaciones en este conjunto de datos. Como últimos pasos, se estudiará y realizará la
posibilidad de integrar el reconocimiento de lectura de labios con el de voz, y se implementará un sistema que sea capaz de hacer un
reconocimiento del habla usando únicamente lectura de labios y con la combinación de voz (sistema audiovisual).