Resumen
Uno de los principales retos de la sociedad digital actual es asistir a los usuarios para que accedan fácilmente y saquen el máximo
beneficio de la enorme cantidad de información multimedia disponible en línea, así como facilitar la interacción en este marco tecnológico.
La principal motivación de este proyecto es impulsar los sistemas de Inteligencia Artificial para que sean capaces de procesar información
de muchas fuentes diferentes. El lenguaje, escrito o hablado, es la manera más natural de comunicarse de los humanos. Es bien
conocido que las tecnologías del habla y del procesamiento del lenguaje natural han avanzado vertiginosamente en los últimos años. Sin
embargo, una vez alcanzados algunos hitos importantes, hay nuevos desafíos que pueden ser abordados para hacer frente de una mejor
manera a toda esta cantidad de información disponible.
En este proyecto, desarrollaremos tecnología y herramientas para acceder fácilmente y sacar provecho de la ingente cantidad de
información multimedia online de muy diversa índole desde audio a documentos escritos, vídeos o incluso sensores. Los objetivos de este
proyecto incluyen algunos aspectos que van más allá del tratamiento del mensaje como una mera secuencia de palabras, más
específicamente, el proyecto se centrará en el mensaje en cuanto a su significado, la interacción con el usuario y algunas cuestiones
paralingüísticas. Este es el caso de la información sobre quién habla, donde no sólo es necesaria la diarización y la verificación del
hablante, sino que también se puede obtener otro tipo de información como la identificación del idioma, la actividad actual del hablante,
las emociones, o incluso cuestiones relacionadas con la salud del hablante. En cuanto a la comprensión del mensaje, es necesario
extraer y representar las partes relevantes que contienen el significado, incluso en un contexto de dominio abierto. También se deben
tener en cuenta componentes relacionados con las intenciones y las emociones, aspectos como el análisis de sentimientos o el lenguaje
figurado (p. ej. la ironía o el sarcasmo). Analizando el mensaje más allá de las palabras queremos desarrollar técnicas que permitan la
detección de patrones comunicativos ligados a las noticias falsas, los mensajes de odio o misóginos, el ciberacoso y el grooming.
Pretendemos identificar el estado emocional del hablante para poder comprender realmente lo que está tratando de expresar. Por último,
en el proceso de interacción se van a desarrollar tecnologías para construir sistemas de diálogo con uso de emociones, y facilitar al
usuario el acceso a información amplia y dispersa mediante sistemas de resumen automático. También se trabajará en la comunicación
inclusiva para abrir la interacción a las personas con algún tipo de discapacidad y facilitarles su comprensión. Estas tecnologías podrán
aplicarse a diferentes tareas relacionadas con el contenido multimedia, como la radiodifusión, entornos de aprendizaje y trabajo, o las
redes sociales.
Los grupos de investigación que participan en este consorcio están especializados en áreas complementarias que permitirán, con su
cooperación, alcanzar los objetivos de este proyecto. Dichos grupos han demostrado una trayectoria exitosa en el procesamiento del
habla, del lenguaje natural y de contenido multimedia, tanto individualmente como en coordinación. Esta cooperación se ha traducido en
la participación en desafíos conjuntos durante los últimos diez años con excelentes resultados.