OCR in Acrobat
Von
Problem:
In digitalen Zeiten sind nicht alle Daten so, wie wir sie haben wollen. Sie haben ein digitales Fax erhalten oder einen Brief bzw. ein Dokument gescannt. Aber der gesamte Inhalt ist immer noch ein Bild – und kein such- und findbarer Text.
Lösung:
Öffnen Sie das Bild im Acrobat und lassen OCR drüberlaufen. Und das geht so:
Schritt 1:

Sie navigieren nach Aufruf des Befehls zu Ihrer TIF- oder JPG-Datei (weitere Bildformate werden auch unterstützt).
Schritt 2:

Unter dem Knopf Einstellung… verstecken sich Optionen, wie wir sie aus dem Bilderhandling vom Distiller kennen. Sie öffnen die selektierte Bilddatei, und sie wird in ein Pixel-PDF umgewandelt.
Schritt 3
Nun muss der Text im Bild erkannt werden. Dazu rufen Sie die OCR-Funktion auf.

Folgender Dialog erschient nun:

Auch hier könnten Sie unter Bearbeiten … nochmals Umwandlungsoptionen verändern. Mit OK führen Sie die Umwandlung aus.
Fazit:
Sie erhalten auf diesem Weg ein PDF, das so aussieht wie das Originaldokument. Aber jetzt ist es innerhalb von Acrobat oder vom Betriebssystem aus (optimal Leopard!) durchsuchbar.
Wenn Sie nun noch Metadaten ins PDF einfügen, dann hat die Datenzukunft begonnen – doch dazu ein andermal mehr.


2 Kommentare
Juli 24th, 2009 at 16:01
Hallo Detlef
Aber auf diesem Weg krieg ich keinen Text aus dem (Bild-)PDF heraus, sondern der ist nur im PDF hinterlegt … oder sehe ich das irgendwie falsch???
Gruß Frank
Juli 24th, 2009 at 22:11
Das musste ich erstmal testen. Auf die Idee, Acrobat als Ersatz für ein OCR-Programm zu «missbrauchen» , war ich bis jetzt nicht gekommen.
Vorläufiges Ergebnis:
Das kommt auf die Vorlage an.
1. Bei reinen Text-Bildern kann ich das PDF als Text abspeichern, und die Textdatei enthält tatsächlich Text.
2. Bei Bildern z.B. von Tabellenformularen, die neben handgeschrieben Sachen auch Gedrucktes enthalten, gelingt der Textexport nicht. Jedoch kann ich die Textpassagen herauskopieren.
Gruss Detlev