Fileconverter für die Shell

Diskutiere Fileconverter für die Shell im Anwendungen Forum im Bereich Linux/Unix Allgemein; Hallo Stehe im Moment vor einem kleinen Problem. Habe hier eine CD bekommen, auf der einige 100MB Documente liegen. Diese sollen nun nach...

  1. #1 Wolfgang, 08.09.2005
    Wolfgang

    Wolfgang Foren Gott

    Dabei seit:
    24.04.2005
    Beiträge:
    3.978
    Zustimmungen:
    0
    Ort:
    Erfurt
    Hallo
    Stehe im Moment vor einem kleinen Problem.
    Habe hier eine CD bekommen, auf der einige 100MB Documente liegen.
    Diese sollen nun nach diversen Inhalten geparst werden.
    Soweit kein Problem, dafür erstelle ich ein Script.
    Nun ist aber ein Fehler passiert, sprich die Dateien haben das falsche
    M$SCHROTT Format, wo ich ASCII erwartet habe.
    :D
    Und zwar die ganze mistige Palette durch M$WORD, M$EXCEL...
    Vermutlich mit bunten Bildchen und ohne..
    :D
    Die komischen Präsentationsdateien interessieren mich nicht, und aus den anderen nur der Text.


    Was ich nun suche ist eine scriptfähiges Werkzeug für die Shell,
    welches den M$ Formatierungsmüll entsorgt und Klartext übriglässt/ausgibt,
    - möglichst auf STDOUT - und mit M$excel als auch M$word klarkommt.

    Wenn es zwei verschiedene sind ist es auch gut.
    catdoc unt antiword scheinen nicht klarzukommen, bzw sind zu fehleranfällig.

    Scheinbar handelt es sich um verschiedene Documentversionsformate. :think:
    Mit dem Hexeditor habe ich mir einige betrachtet, aber eindeutige Kennung ist
    für mich nicht erkennbar.
    Also habe ich catdoc mal mit der Option -b versucht, was in einigen Fällen wenigstens ein wenig - jedoch zu wenig - liefert.

    OpenOffice ist hier nicht verfügbar, und auch keine Lösung.
    Für diesen Einzelfall würde ich das auch nicht installieren wollen.

    Jemand eine Idee?
    Ach ja,
    GNU/LINUX Debian Sarge stable

    Danke
    Gruß Wolfgang
    <der M$ gerade mal wieder zum ko.. findet>
     
  2. khs

    khs Routinier

    Dabei seit:
    19.08.2004
    Beiträge:
    408
    Zustimmungen:
    0
    Ueberraschenderweise kommt man mit
    Code:
    strings <dokument.doc>
    
    erstaunlich weit. Weiss allerdings nicht, ob dessen output fuer deine Zwecke ausreicht.

    -khs
     
  3. #3 Wolfgang, 08.09.2005
    Wolfgang

    Wolfgang Foren Gott

    Dabei seit:
    24.04.2005
    Beiträge:
    3.978
    Zustimmungen:
    0
    Ort:
    Erfurt
    Hallo
    Mit strings habe ich es zuerst versucht, was hier natürlich nur Müll liefert.
    Das liegt schon daran, das man im Hause M$ sowohl binäre Formatierer nutzt, als auch solche im textformat.
    In mögliche Bildchen eingefügte Versionen usw.
    Alls das will man natürlich nicht wirklich.
    Damit habe ich aber die verschieden vorkommenden Documentversionen herausbekommen. Natürlich alles vertreten, war ja logisch. 97,Version 8 9..10.
    :-(
    :think:

    Was ich brauche, ist der reine Text des Dokumentes, der durch meine Regexp geschoben werden soll.

    Mach mich dann mal auf die Suche nach CPAN :D

    Der ganze Kompatibilitätswahnsinn der verschiedenen Versionen bei M$ macht das alles andere als trivial.
    seufz

    Gruß Wolfgang
     
  4. caba_

    caba_ (caba{_,}|manuw)

    Dabei seit:
    07.08.2007
    Beiträge:
    334
    Zustimmungen:
    0
    Das Thema ist zwar alt und vermutlich auch gelöst aber damit die SuFu was findet:
    Für Word-Dateien ist wv zu empfehlen:
    Code:
    cat /usr/ports/converters/wv/pkg/DESCR
    Für Excel:
    Code:
    cat /usr/ports/converters/xlhtml/pkg/DESCR
    Es gibt auch wv2, ein rewrite von wv, das soll auch Excel können. Kenne es aber nicht.

    xlhtml benutze ich für emails wenn mir wieder irgend ein hein-doof Excel-tabellen sendet.


    Also, wollt den thread nicht blöd sterben lassen.
     
Thema:

Fileconverter für die Shell

Die Seite wird geladen...

Fileconverter für die Shell - Ähnliche Themen

  1. Empfehlungen für ein Partitionsschema home server

    Empfehlungen für ein Partitionsschema home server: Hallo ihr, ich möchte Debian neu installieren und überlege, wie ich meine Festplatte am sinnvollsten partitioniere Nunja dabei mache ich immer...
  2. Daten für eine Homepage optimieren und verarbeiten?!

    Daten für eine Homepage optimieren und verarbeiten?!: Hi Ihr wisst ja sicher es gibt viele offene Daten die von der Regierung kostenlos zur Verfügung gestellt werden darunter auch "echt zeit daten"....
  3. [gelöst] - for file in ... nur für bestimmte Endungen?

    [gelöst] - for file in ... nur für bestimmte Endungen?: Hallo Zusammen Ich habe einen eigenen Server und das Ziel mittels einem Shell-Skript ein Verzeichnis auf neue Dateien zu überprüfen. Das Skript...
  4. Erweiterbarer Wrapper für GNU find

    Erweiterbarer Wrapper für GNU find: Hallo zusammen, Da ich hier noch einen Account habe, wollte ich mal dieses Forum nutzen, um ganz dreist ein wenig Eigenwerbung zu machen :) Ich...
  5. Suche erweiterbare Audio-APP für 768kHz

    Suche erweiterbare Audio-APP für 768kHz: Kennt jemand eine OS audio APP für den PC, welche höhere Bitraten unterstützt, bzw. die man entsprechend erweitern könnte? Auf dem WIN-Markt habe...