W
Wolfgang
Foren Gott
Hallo
Stehe im Moment vor einem kleinen Problem.
Habe hier eine CD bekommen, auf der einige 100MB Documente liegen.
Diese sollen nun nach diversen Inhalten geparst werden.
Soweit kein Problem, dafür erstelle ich ein Script.
Nun ist aber ein Fehler passiert, sprich die Dateien haben das falsche
M$SCHROTT Format, wo ich ASCII erwartet habe.
Und zwar die ganze mistige Palette durch M$WORD, M$EXCEL...
Vermutlich mit bunten Bildchen und ohne..
Die komischen Präsentationsdateien interessieren mich nicht, und aus den anderen nur der Text.
Was ich nun suche ist eine scriptfähiges Werkzeug für die Shell,
welches den M$ Formatierungsmüll entsorgt und Klartext übriglässt/ausgibt,
- möglichst auf STDOUT - und mit M$excel als auch M$word klarkommt.
Wenn es zwei verschiedene sind ist es auch gut.
catdoc unt antiword scheinen nicht klarzukommen, bzw sind zu fehleranfällig.
Scheinbar handelt es sich um verschiedene Documentversionsformate.
Mit dem Hexeditor habe ich mir einige betrachtet, aber eindeutige Kennung ist
für mich nicht erkennbar.
Also habe ich catdoc mal mit der Option -b versucht, was in einigen Fällen wenigstens ein wenig - jedoch zu wenig - liefert.
OpenOffice ist hier nicht verfügbar, und auch keine Lösung.
Für diesen Einzelfall würde ich das auch nicht installieren wollen.
Jemand eine Idee?
Ach ja,
GNU/LINUX Debian Sarge stable
Danke
Gruß Wolfgang
<der M$ gerade mal wieder zum ko.. findet>
Stehe im Moment vor einem kleinen Problem.
Habe hier eine CD bekommen, auf der einige 100MB Documente liegen.
Diese sollen nun nach diversen Inhalten geparst werden.
Soweit kein Problem, dafür erstelle ich ein Script.
Nun ist aber ein Fehler passiert, sprich die Dateien haben das falsche
M$SCHROTT Format, wo ich ASCII erwartet habe.
Und zwar die ganze mistige Palette durch M$WORD, M$EXCEL...
Vermutlich mit bunten Bildchen und ohne..
Die komischen Präsentationsdateien interessieren mich nicht, und aus den anderen nur der Text.
Was ich nun suche ist eine scriptfähiges Werkzeug für die Shell,
welches den M$ Formatierungsmüll entsorgt und Klartext übriglässt/ausgibt,
- möglichst auf STDOUT - und mit M$excel als auch M$word klarkommt.
Wenn es zwei verschiedene sind ist es auch gut.
catdoc unt antiword scheinen nicht klarzukommen, bzw sind zu fehleranfällig.
Scheinbar handelt es sich um verschiedene Documentversionsformate.
Mit dem Hexeditor habe ich mir einige betrachtet, aber eindeutige Kennung ist
für mich nicht erkennbar.
Also habe ich catdoc mal mit der Option -b versucht, was in einigen Fällen wenigstens ein wenig - jedoch zu wenig - liefert.
OpenOffice ist hier nicht verfügbar, und auch keine Lösung.
Für diesen Einzelfall würde ich das auch nicht installieren wollen.
Jemand eine Idee?
Ach ja,
GNU/LINUX Debian Sarge stable
Danke
Gruß Wolfgang
<der M$ gerade mal wieder zum ko.. findet>