PDF-Text exportieren

oyster-manu

oyster-manu

toast
Hallo,

habe hier ein paar Ebooks dessen Text allerdings nur schwer lesbar ist (krakelige Schrift weil schlecht gescannt). Wenn man jedoch mit Evince (Gnome-PDF-Viewer) den Text markiert, erscheint unter dem Krakeltext der gleiche Text nochmal, nur lesbar in Arial.

Es gibt also wohl zwei Text-Ebenen in diesen Ebooks: Die obere "Bitmap-Ebene" in der der gescannte Text gespeichert ist und die untere Text-Ebene.
Ich würde gern diese Bitmap-Ebene entfernen. Mit dem OO.org PDF-Import kann man das machen, geht aber nur mühsam, da nicht automatisch.
 
Guten Abend,

du könntest pdftotext probieren. Das sollte den eingebetten plaintext extrahieren können. Nebenbei möchte ich anmerken, dass sich OO.org auch headless betreiben lässt. Man kann es also über die Kommandozeile skripten :)

cu
 
Guten Abend,

du könntest pdftotext probieren. Das sollte den eingebetten plaintext extrahieren können. Nebenbei möchte ich anmerken, dass sich OO.org auch headless betreiben lässt. Man kann es also über die Kommandozeile skripten :)

cu
Kennst Du dazu einen Link mit ein paar Beispielen?
 
Zurück
Oben