Introducción.
Propongo un tedioso procedimiento para limpiar un texto antiguo para que ocupe poco sin perder la esencia de que un día fue escrito a mano.
Estado original.
El texto original está como imagen con las siguientes características:
- Formato .JPG
- Número de colores: 256 grises
- Resolución: 1940x1378 pixeles
- Tamaño: 245.1 kbytes
Los principales inconvenientes son:
- Se transparenta el texto escrito al otro lado de la página porque la tinta transpasa el papel.
- El formato .JPG no es el mejor para comprimir texto debido a la matemática que hay detrás de dicho algoritmo. El resultado es que aparece mucho ruido en la imagen alrededor del texto:

- La resolución es suficiente, pero algo más de resolución reduciría sensiblemente la pixelación.
Proceso de limpieza.
Lo primero será usar una herramienta de retoque fotográfico llamada GIMP.
- Abrimos el fichero con la imagen original.
- Usamos la herramienta de selección de regiones continuas.
- Seleccionamos áreas que no son texto con un único click y las borramos pulsando Ctrl+X. Tras hacer click y Ctrl-X varias veces el resultado es el que sigue.
- Ahora pasamos de una imagen en 256 tonos de grises a una en blanco y negro. Para ello, en la parte superior de la imagen vamos a Capa / Colores / Umbral… Esta herramienta se controla con un simple slide. Si lo movemos muy a la derecha, la imagen queda muy oscura y emborronada y si lo movemos mucho a la izquierda perdemos mucho texto y será ilegible. Buscamos un equilibrio. El resultado es:
- Eliminamos manchas que no deberían estar y borramos esos pixeles negros que no deberían estar. Para ello:
- Primeros elegimos pintar usando el color blanco: usamos el icono que tiene un cuentagotas (fila 2 columna 3) y llamada "recoger colores de la pantalla". Hacemos click en un punto blanco de la pantalla.
- Cogemos el icono del lapiz ("pintar píxeles de bordes duros"). Podemos modificar el tamaño de la punta para ser más o menos precisos.
- El resultado:
Vectorización.
Tenemos una imagen limpia, pero muy pixelada debido a la baja resolución del original. Podéis apreciar la pixelación:
Para vectorizar usaremos una herramienta llamada potrace. El resultado es una imagen que tiene resolución infinita.
Podemos ver que al hacer zoom en el fichero vectorial, no aparece pixelación:
Ejemplo con toda una página.
El resultado es muy bueno, pero el proceso es muy tedioso. Pongo una página entera procesada de esta manera.
- Original:
[
- Resultado:
[













