Resumen
En este proyecto convergen tres líneas de investigación estrechamente relacionadas:
1) el desarrollo de diferentes metodologías para la extracción automática de construcciones o patrones sintáctico-semánticos con el fin de representar semánticamente el contenido de los documentos, teniendo como eje central los novedosos métodos basados en representaciones continuas de texto (embeddings) que permiten modelar el contexto de un modo eficaz y eficiente;
2) el desarrollo de aplicaciones para la resolución de tareas concretas de PLN que permitan mejorar la comprensión automática del texto (por ejemplo, la detección del lenguaje figurado), e identificar aspectos clave del perfil de autores (edad, sexo, variedad lingüística, lengua nativa, etc.), con especial interés en distinguir a los usuarios de los países de lengua hispana (España, México, Perú, etc .. ), aspectos que además permiten utilizar su información en tareas como la minería de productos y servicios, en especial para la detección de opiniones falsas y
3) la creación de recursos lingüísticos, en concreto corpus anotados, orientados al análisis de la lengua no estándar que servirán de base para la metodología de extracción de patrones y para las
aplicaciones mencionadas