Convertir imágenes y PDFs a texto con el OCR de Google
Autor: pmm | Archivado en: Buscadores, Internet el día 10/Feb/2009
Hace poco os comenté de las facilidades que nos ofrecía Google convirtiéndonos más de un millón y medio de libros escaneados a formato de texto para IPhone y Android usando su propia tecnología OCR (Optical Character Recognition). Hoy he leído acerca de una comparación entre usar este OCR de Google y otros comerciales como Abbyy FineReader y Adobe Acrobat.
Según la comparación Google nos da mejores resultados, Adobe Acrobat convierte los PDFs y nos da el resultado en un archivo de Word, de una forma no muy clara, muchas veces no reconoce bien los caracteres y para poder entender el texto tenemos que deducir, algo que a veces se nos puede hacer trabajoso. Con el Abbyy FineReader sucede parecido, incluso puede darse el caso que en páginas donde hayan dos o tres imágenes a la hora de convertir te la reconozca como una sola.
Para comprobar los resultados que nos da Google solo tenemos que publicar en Internet algún PDF que queramos convertir, hacer un poquillo de SEO y esperar a que Google lo indexe. Luego hacemos una búsqueda y accedemos a la versión en html. Podremos conseguir resultados como este:

Fuente: Digital Inspiration












Deja un comentario.