Ayer, sin darme cuenta, me vi enzarzado en la conversión de una página de periódico escaneada en un documento de texto y, tras un par de horas trasteando con la versión profesional 7 de Adobe (no entiende la distribución de texto en columnas¿?), tiré la toalla.
La virguería de obtener el texto digitalizado de una imagen no es una utopía desde hace ya algún tiempo y se consigue gracias a los softwares de reconocimiento óptico de caracteres (OCR). Pues bien, hace un rato he dado con uno libre que Google compró a HP hace tiempo: Tesseract OCR engine.
Las primeras pruebas sugieren que, a pesar de ejecutarse en la línea de comandos, funciona de maravilla siempre y cuando tu imagen esté en formato TIFF.
Ahí, queda dicho. Aquí, la versión 1.04b.tar.gz.
Technorati Tags: OCR, gratuito, tesseract
Tomo nota tío chuso.
ResponderEliminarBuena caza.
En ubuntu es aún más cómodo: está en los repositorios y no hay que compilar nada :)
ResponderEliminar