Fileconverter für die Shell

W

Wolfgang

Foren Gott
Hallo
Stehe im Moment vor einem kleinen Problem.
Habe hier eine CD bekommen, auf der einige 100MB Documente liegen.
Diese sollen nun nach diversen Inhalten geparst werden.
Soweit kein Problem, dafür erstelle ich ein Script.
Nun ist aber ein Fehler passiert, sprich die Dateien haben das falsche
M$SCHROTT Format, wo ich ASCII erwartet habe.
:D
Und zwar die ganze mistige Palette durch M$WORD, M$EXCEL...
Vermutlich mit bunten Bildchen und ohne..
:D
Die komischen Präsentationsdateien interessieren mich nicht, und aus den anderen nur der Text.


Was ich nun suche ist eine scriptfähiges Werkzeug für die Shell,
welches den M$ Formatierungsmüll entsorgt und Klartext übriglässt/ausgibt,
- möglichst auf STDOUT - und mit M$excel als auch M$word klarkommt.

Wenn es zwei verschiedene sind ist es auch gut.
catdoc unt antiword scheinen nicht klarzukommen, bzw sind zu fehleranfällig.

Scheinbar handelt es sich um verschiedene Documentversionsformate. :think:
Mit dem Hexeditor habe ich mir einige betrachtet, aber eindeutige Kennung ist
für mich nicht erkennbar.
Also habe ich catdoc mal mit der Option -b versucht, was in einigen Fällen wenigstens ein wenig - jedoch zu wenig - liefert.

OpenOffice ist hier nicht verfügbar, und auch keine Lösung.
Für diesen Einzelfall würde ich das auch nicht installieren wollen.

Jemand eine Idee?
Ach ja,
GNU/LINUX Debian Sarge stable

Danke
Gruß Wolfgang
<der M$ gerade mal wieder zum ko.. findet>
 
Wolfgang_1 schrieb:

Was ich nun suche ist eine scriptfähiges Werkzeug für die Shell,
welches den M$ Formatierungsmüll entsorgt und Klartext übriglässt/ausgibt,
- möglichst auf STDOUT - und mit M$excel als auch M$word klarkommt.

Ueberraschenderweise kommt man mit
Code:
strings <dokument.doc>
erstaunlich weit. Weiss allerdings nicht, ob dessen output fuer deine Zwecke ausreicht.

-khs
 
Hallo
Mit strings habe ich es zuerst versucht, was hier natürlich nur Müll liefert.
Das liegt schon daran, das man im Hause M$ sowohl binäre Formatierer nutzt, als auch solche im textformat.
In mögliche Bildchen eingefügte Versionen usw.
Alls das will man natürlich nicht wirklich.
Damit habe ich aber die verschieden vorkommenden Documentversionen herausbekommen. Natürlich alles vertreten, war ja logisch. 97,Version 8 9..10.
:-(
:think:

Was ich brauche, ist der reine Text des Dokumentes, der durch meine Regexp geschoben werden soll.

Mach mich dann mal auf die Suche nach CPAN :D

Der ganze Kompatibilitätswahnsinn der verschiedenen Versionen bei M$ macht das alles andere als trivial.
seufz

Gruß Wolfgang
 
Das Thema ist zwar alt und vermutlich auch gelöst aber damit die SuFu was findet:
Für Word-Dateien ist wv zu empfehlen:
Code:
cat /usr/ports/converters/wv/pkg/DESCR
wv is a library which allows access to Microsoft Word files. It can
load and parse the word 2000, 97, 95 and 6 file formats. These are
the file formats known internally as Word 9, 8, 7 and 6. Work is
underway to support reading earlier formats as well: Word 2 docs
are converted to plaintext.

Included in wv are various helper applications to convert Word
documents in HTML, PDF, LaTeX, and other useful formats.

Für Excel:
Code:
cat /usr/ports/converters/xlhtml/pkg/DESCR
xlHtml is an Excel 95 and later file converter. Its HTML output can
be used as a Netscape Plugin to let you view xls e-mail attachments.
It can also extract regions of a spreadsheet and convert the
spreadsheet to pure text rather than html.

Es gibt auch wv2, ein rewrite von wv, das soll auch Excel können. Kenne es aber nicht.

xlhtml benutze ich für emails wenn mir wieder irgend ein hein-doof Excel-tabellen sendet.


Also, wollt den thread nicht blöd sterben lassen.
 
Zurück
Oben