Última hora

Última hora

Digitalizando el pasado

Leyendo ahora:

Digitalizando el pasado

Tamaño de texto Aa Aa

“El problema de convertir un documento histórico en un texto legible por una máquina es que es muy viejo. Todo es diferente de un documento moderno. Tiene fuentes antiguas, palabras antiguas y un diseño muy difícil”, señala Hildelies Balk, directora del proyecto IMPACT.

Cada año son escaneados y puestos en línea millones de libros. Pero una vez escaneados quedan llenos de errores, porque los ordenadores no pueden descifrar esos textos antiguos.

“Este es ‘El Principio Matemático’ de Isaac Newton. Podemos ver por transparencia la tinta del texto que se encuentra al otro lado de la página. Podemos ver que el papel es ondulado y que hay una larga ‘s’, que puede ser fácilmente confundida con una ‘f’”, explica Clemens Neudecker, Jefe Técnico de Proyectos Europeos de la Biblioteca Koninklijke.

Los investigadores de la Biblioteca Nacional de los Países Bajos han trabajado cuatro años en un proyecto europeo para mejorar las herramientas de software para leer libros antiguos.

“Mejoramos el software para mejorar las imágenes, con el reconocimiento óptico de los caracteres, la corrección posterior del documento y tecnologías del lenguaje para hacer estos libros más accesibles”, dice Balk.

Estos conocimientos ya han sido integrados en el software de digitalización líder del mercado y los resultados han mejorado mucho.

“Aquí tenemos un ejemplo de una imagen en tratamiento, y como es enderezada. Después ajustamos los márgenes. El siguiente paso es transformarla en una imagen en blanco y negro para mejorar el contraste. Al final del proceso, el usuario obtiene un texto completamente reconocido, a la vez que las características particulares del texto. Por ejemplo, los párrafos o los títulos”, cuenta Neudecker.

El proyecto pretende lograr, al menos, una mejora del 15% en la precisión del texto escaneado. Lo que significa que archivos valiosísimos deberían ser mucho más accesibles.

“Un texto que no ha sido totalmente digitalizado es virtualmente invisible. Todos utilizamos motores de búsqueda para buscar una palabra, y si no la encontramos es porque no existe”, señala Balk.

http://www.digitisation.eu/