PDF-Text exportieren

oyster-manu · 13.04.2010

Hallo,

habe hier ein paar Ebooks dessen Text allerdings nur schwer lesbar ist (krakelige Schrift weil schlecht gescannt). Wenn man jedoch mit Evince (Gnome-PDF-Viewer) den Text markiert, erscheint unter dem Krakeltext der gleiche Text nochmal, nur lesbar in Arial.

Es gibt also wohl zwei Text-Ebenen in diesen Ebooks: Die obere "Bitmap-Ebene" in der der gescannte Text gespeichert ist und die untere Text-Ebene.
Ich würde gern diese Bitmap-Ebene entfernen. Mit dem OO.org PDF-Import kann man das machen, geht aber nur mühsam, da nicht automatisch.

slackfan · 13.04.2010

Guten Abend,

du könntest pdftotext probieren. Das sollte den eingebetten plaintext extrahieren können. Nebenbei möchte ich anmerken, dass sich OO.org auch headless betreiben lässt. Man kann es also über die Kommandozeile skripten

cu

rikola · 14.04.2010

slackfan schrieb:
Guten Abend,

du könntest pdftotext probieren. Das sollte den eingebetten plaintext extrahieren können. Nebenbei möchte ich anmerken, dass sich OO.org auch headless betreiben lässt. Man kann es also über die Kommandozeile skripten

cu

Kennst Du dazu einen Link mit ein paar Beispielen?

PDF-Text exportieren

oyster-manu

toast

slackfan

König

rikola

Foren Gott

Neueste Themen