Resumen
Las aplicaciones de IA pueden reproducir y amplificar desigualdades, estereotipos y sesgos discriminatorios que tienen su origen en
múltiples fuentes: selección de datos, etiquetado, datos de entrenamiento, etc. Estos sesgos son discriminatorios para ciertos grupos
sociales. La equidad de los sistemas de IA y su capacidad para ofrecer explicaciones transparentes y comprensibles de sus decisiones es
crucial tanto para que los desarrolladores puedan entender mejor el comportamiento de los sistemas, como para que los usuarios confíen
en ellos. Este proyecto desarrollará sistemas equitativos que reflejen múltiples perspectivas y operen sobre datos con etiquetas
"conflictivas" con el fin de no marginar opiniones minoritarias. Mientras los enfoques predominantes tratan el desacuerdo como "ruido"
apuntando a una única opinión mayoritaria ("ground truth), nuestros sistemas emplearán el paradigma del Aprendizaje con Desacuerdos
(AD), que pretende aprender a clasificar con conjuntos de datos con información sobre desacuerdos para interpretar el lenguaje. Los
anotadores pueden tener perspectivas muy diferentes sobre lo que se considera lenguaje tóxico. Estas diferencias se explican en parte
por variables culturales y sociodemográficas como sexo, edad o bagaje cultural. Tener en cuenta estas perspectivas debería contribuir a
un cambio de paradigma que se traducirá en el desarrollo de sistemas más equitativos, justos e inclusivos hacia la pluralidad de
perspectivas que son más informativas que la suma de anotaciones que representan la opinión mayoritaria. También abordaremos otros
aspectos esenciales de la creación de conjuntos de datos y desarrollo de sistemas que pueden introducir sesgos, como métodos de
recopilación y selección de datos, metodología de anotación y métricas de evaluación. Nos centraremos en tareas relacionadas con la
detección del lenguaje tóxico, discurso del odio, misoginia y sexismo. Primero, mediremos el sesgo en conjuntos de datos y analizaremos
la equidad y la transparencia en los sistemas. Formalizaremos la detección del sesgo, la imparcialidad y la transparencia de los conductos
de PLN desde tres ángulos: (i) sesgo incrustado en datos; (ii) grado de equidad en sistemas de aprendizaje automático/profundo; y (iii)
técnicas de transparencia utilizadas para lograr la explicabilidad del proceso de decisión de los sistemas (eXplainable AI). Propondremos
la metodología de diagnóstico BEAT para la medición de Bias, fairnEss y Transparency, que será validada en casos de estudio que tratan
la detección de toxicidad en comentarios, sexismo en medios sociales y misoginia en memes. Aplicaremos las directrices de UNBEAT
para desarrollar conjuntos de datos imparciales y sistemas justos y transparentes para construir conjuntos de datos y desarrollar sistemas
equitativos para identificación de estereotipos raciales y sexismo en textos y memes. Con el paradigma del AD, en el que subjetividad y
diversidad están adecuadamente representadas, desarrollaremos conjuntos de datos imparciales (i) evitando sesgo en el rastreo y
muestreo de datos, y (ii) proponiendo técnicas de etiquetado para incluir el desacuerdo entre anotadores en lugar de proporcionar sólo el
voto mayoritario (gold standard) como se hace tradicionalmente, y (iii) desarrollando sistemas equitativos que aprenderán de las
perspectivas. Por último, validaremos la metodología y las directrices propuestas en dos escenarios: sistemas de recomendación y
detección de propaganda.