READ (H2020-EINFRA-674943): transcripción e indexación automática de manuscritos antiguos

readLa Universitat Politècnica de València, a través de su centro Pattern Recognition and Human Language Technologies (PHRLT), es uno de los socios de READ, un proyecto europeo que tiene como objetivo el desarrollo de avanzadas herramientas para la transcripción e indexación automática de manuscritos antiguos.

El proyecto, financiado por el programa Horizon2020 de la Unión Europea (UE), se extenderá hasta junio de 2019 y permitirá acceder a documentos que datan desde el siglo XIV hasta la actualidad.

Entre ellos, destacan manuscritos de Lope de Vega, pertenecientes a la colección de la Biblioteca Nacional; correspondencia de los Hermanos Grimm, del Archivo Estatal de Marburgo; y una gran cantidad de documentos de la historia de Venecia recopilados desde hace cientos de años.

Estos son posiblemente los más llamativos, señala Joan Andreu Sánchez, investigador del centro PRHLT-UPV, pero también nos proponemos poner al alcance de investigadores, historiadores, lingüistas, genealogistas y público en general una gran cantidad de documentos civiles, como registros matrimoniales, partidas de nacimiento o defunción, sentencias judiciales y demás que, en conjunto, tienen un gran valor para estudios demográficos, genealógicos, etc..

Transcribirá textos escritos en latín, alemán, holandés, castellano, italiano y finlandés, entre otros

El proyecto, que trabaja con documentos procedentes de países como España, Italia, Alemania, Reino Unido, Países Bajos o Finlandia, facilitará la transcripción de originales escritos en latín, alemán, holandés, inglés, castellano, italiano y finlandés, entre otros

La idea es que, en el futuro, las bibliotecas y los archivos sean capaces de facilitar el acceso a los contenidos para que la gente pueda buscar dentro de los documentos, y no con los metadatos únicamente, tal como se hace actualmente, añade Andreu.

Reconocimiento a través de técnicas holísticas

Según se indica desde el PHRLT-UPV, uno de los problemas de los documentos antiguos es la ausencia de unos patrones de escritura y edición estándar. La variabilidad es, por lo tanto, enorme, y los caracteres no pueden ser aislados de manera automática, lo que imposibilita su transcripción a través de técnicas de OCR. Por ello, el reconocimiento debe basarse en técnicas holísticas, aquellas que reconocen caracteres, palabras y frases como un todo.

Andreu explica que hay documentos con anotaciones en los márgenes, palabras interlinia añadidas, tachones, textos con muchísimas abreviaturas, gran variabilidad en el tipo de escritura, etcétera. El proyecto plantea procesar esta heterogeneidad y hacer accesible toda la información, bien transcribiéndola, o bien indexándola haciendo uso de nuevas herramientas.

Un paso más allá del proyecto Transcriptorium

Para ello, los socios de READ trabajan nuevas soluciones de reconocimiento de textos manuscritos (HTR, siglas en inglés de Handwritten Text Recognition), que se incorporarán a Transkribus, software libre desarrollado en el marco de otro proyecto europeo denominado Transcriptorium.

READ coge el testigo de este proyecto y va un paso más allá, afirma el investigador del PHRLT-UPV. En Transcriptorium nos encargamos de madurar la tecnología HTR y darla a conocer a los proveedores de contenidos: archivos y bibliotecas. En READ, el propósito es extender el uso de la tecnología HTR a gran escala y dar servicio a los principales proveedores de contenidos. El trabajo de la UPV en READ se centra en el módulo de reconocimiento e indexación de Transkribus.

La clave de las herramientas en las que trabajan los investigadores de READ reside en su capacidad para obtener modelos que aprenden automáticamente a partir de ejemplos. Dichos modelos necesitan una cantidad de datos de aprendizaje relativamente pequeña para obtener resultados muy satisfactorios.

Una vez aprendidos los modelos, se utilizan técnicas muy eficientes de transcripción que emplean redes de estados finitos. Un aspecto importante de todo el proceso es el uso de modelos de lenguaje que utilizan el contexto para restringir el proceso de búsqueda de la transcripción, explica Andreu.

Además, las herramientas permiten editar y corregir posibles errores de transcripción automática mediante técnicas interactivas.

Futuro servicio a la carta

En un futuro, los usuarios podrán subir una colección de imágenes y solicitar que el sistema proporcione una transcripción. Este servicio, que estará disponible a través Transkribus, será gratuito para los usuarios en una carta de servicios estándar. Por otro lado, para problemas más complejos, se podrán buscar soluciones ad-hoc, concluye el investigador del PHRLT-UPV.