Explora I+D+i UPV

Volver atrás Patentes

SPA-Sentences: Entrenamiento y evaluación de sistemas de reconocimiento de escritura manuscrita en español

Institut Universitari Valencià d'investigació en Intel·ligència Artificial

Compartir
La tendencia mundial a la automatización de procesos es mayor, si cabe, cuando se trata de migrar documentos en papel a soporte digital. Además de la digitalización propiamente dicha, el procesado y transcripción eficaz de documentos, en muchos casos manuscritos y/o con baja resolución, permiten explotar una información que de otro modo no sería viable. Todas las herramientas para la transcripción de texto manuscrito se basan en sistemas de aprendizaje automático que, en última instancia, requieren el uso de corpus para su entrenamiento. Aunque existen corpus de escritura manuscrita moderna para distintas lenguas como el inglés o francés, no sucede lo mismo para el español que difiere lo suficiente para requerir un corpus específico. SPA-Sentences es un corpus de frases manuscritas en español para el entrenamiento y evaluación de sistemas de reconocimiento de escritura en lengua española. El corpus consta de frases manuscritas extraídas de 1.617 formularios producidos por el mismo número de escritores. Hay un total de 13,691 frases que contienen alrededor de 100,000 instancias de palabras, con un vocabulario de 3,288 palabras. Estos datos permiten realizar un entrenamiento eficaz de los sistemas de reconocimiento. Los ficheros del corpus comprenden las imágenes escaneadas de los formularios así como información de su segmentación en líneas y su transcripción manualmente supervisada. También se proporciona un conjunto de programas en Python para extraer las informaciones a partir de los ficheros de la imagen y sus correspondientes ficheros xml. Gracias a SPA-Sentences es posible entrenar y poner a punto sistemas de reconocimiento de escritura manuscrita para alfabetos latinos y, en particular, en español, así como evaluar el sistema de reconocimiento en condiciones estándar para la comunidad científica.
Tipo de tecnología

SOFTWARE

Estado de protección


Texto de la patente

Responsable contacto

Castro Bleda María José

Más información

Rellena este formulario y nos pondremos en contacto contigo. Le informamos que los datos de carácter personal que Vd. facilite serán utilizados única y exclusivamente para dar respuesta a su consulta.