SPA-Sentences: Un corpus en español para entrenamiento y evaluación estándar de sistemas de reconocimiento de escritura manuscrita

La tendencia mundial a la automatización de procesos es mayor, si cabe, cuando se trata de migrar documentos en papel a soporte digital. Además de la digitalización propiamente dicha, el procesado y transcripción eficaz de documentos, en muchos casos manuscritos y/o con baja resolución, permiten explotar una información que de otro modo no sería viable. Todas las herramientas para la transcripción de texto manuscrito se basan en sistemas de aprendizaje automático que, en última instancia, requieren el uso de corpus para su entrenamiento. Aunque existen corpus de escritura manuscrita moderna para distintas lenguas como el inglés o francés, no sucede lo mismo para el español que difiere lo suficiente para requerir un corpus específico. SPA-Sentences es un corpus de frases manuscritas en español para el entrenamiento y evaluación de sistemas de reconocimiento de escritura en lengua española. El corpus consta de frases manuscritas extraídas de 1.617 formularios producidos por el mismo número de escritores. Hay un total de 13,691 frases que contienen alrededor de 100,000 instancias de palabras, con un vocabulario de 3,288 palabras. Estos datos permiten realizar un entrenamiento eficaz de los sistemas de reconocimiento. Los ficheros del corpus comprenden las imágenes escaneadas de los formularios así como información de su segmentación en líneas y su transcripción manualmente supervisada. También se proporciona un conjunto de programas en Python para extraer las informaciones a partir de los ficheros de la imagen y sus correspondientes ficheros xml. Gracias a SPA-Sentences es posible entrenar y poner a punto sistemas de reconocimiento de escritura manuscrita para alfabetos latinos y, en particular, en español, así como evaluar el sistema de reconocimiento en condiciones estándar para la comunidad científica.

Ficha técnica

Tipo de tecnología SOFTWARE
Inventores Salvador España Boquera, María José Castro Bleda
Responsable Castro Bleda María José