Fileconverter für die Shell

Dieses Thema im Forum "Anwendungen" wurde erstellt von Wolfgang, 08.09.2005.

  1. #1 Wolfgang, 08.09.2005
    Wolfgang

    Wolfgang Foren Gott

    Dabei seit:
    24.04.2005
    Beiträge:
    3.978
    Zustimmungen:
    0
    Ort:
    Erfurt
    Hallo
    Stehe im Moment vor einem kleinen Problem.
    Habe hier eine CD bekommen, auf der einige 100MB Documente liegen.
    Diese sollen nun nach diversen Inhalten geparst werden.
    Soweit kein Problem, dafür erstelle ich ein Script.
    Nun ist aber ein Fehler passiert, sprich die Dateien haben das falsche
    M$SCHROTT Format, wo ich ASCII erwartet habe.
    :D
    Und zwar die ganze mistige Palette durch M$WORD, M$EXCEL...
    Vermutlich mit bunten Bildchen und ohne..
    :D
    Die komischen Präsentationsdateien interessieren mich nicht, und aus den anderen nur der Text.


    Was ich nun suche ist eine scriptfähiges Werkzeug für die Shell,
    welches den M$ Formatierungsmüll entsorgt und Klartext übriglässt/ausgibt,
    - möglichst auf STDOUT - und mit M$excel als auch M$word klarkommt.

    Wenn es zwei verschiedene sind ist es auch gut.
    catdoc unt antiword scheinen nicht klarzukommen, bzw sind zu fehleranfällig.

    Scheinbar handelt es sich um verschiedene Documentversionsformate. :think:
    Mit dem Hexeditor habe ich mir einige betrachtet, aber eindeutige Kennung ist
    für mich nicht erkennbar.
    Also habe ich catdoc mal mit der Option -b versucht, was in einigen Fällen wenigstens ein wenig - jedoch zu wenig - liefert.

    OpenOffice ist hier nicht verfügbar, und auch keine Lösung.
    Für diesen Einzelfall würde ich das auch nicht installieren wollen.

    Jemand eine Idee?
    Ach ja,
    GNU/LINUX Debian Sarge stable

    Danke
    Gruß Wolfgang
    <der M$ gerade mal wieder zum ko.. findet>
     
  2. Anzeige

    Schau dir mal diese Kategorie an. Dort findest du bestimmt etwas.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. khs

    khs Routinier

    Dabei seit:
    19.08.2004
    Beiträge:
    408
    Zustimmungen:
    0
    Ueberraschenderweise kommt man mit
    Code:
    strings <dokument.doc>
    
    erstaunlich weit. Weiss allerdings nicht, ob dessen output fuer deine Zwecke ausreicht.

    -khs
     
  4. #3 Wolfgang, 08.09.2005
    Wolfgang

    Wolfgang Foren Gott

    Dabei seit:
    24.04.2005
    Beiträge:
    3.978
    Zustimmungen:
    0
    Ort:
    Erfurt
    Hallo
    Mit strings habe ich es zuerst versucht, was hier natürlich nur Müll liefert.
    Das liegt schon daran, das man im Hause M$ sowohl binäre Formatierer nutzt, als auch solche im textformat.
    In mögliche Bildchen eingefügte Versionen usw.
    Alls das will man natürlich nicht wirklich.
    Damit habe ich aber die verschieden vorkommenden Documentversionen herausbekommen. Natürlich alles vertreten, war ja logisch. 97,Version 8 9..10.
    :-(
    :think:

    Was ich brauche, ist der reine Text des Dokumentes, der durch meine Regexp geschoben werden soll.

    Mach mich dann mal auf die Suche nach CPAN :D

    Der ganze Kompatibilitätswahnsinn der verschiedenen Versionen bei M$ macht das alles andere als trivial.
    seufz

    Gruß Wolfgang
     
  5. caba_

    caba_ (caba{_,}|manuw)

    Dabei seit:
    07.08.2007
    Beiträge:
    334
    Zustimmungen:
    0
    Das Thema ist zwar alt und vermutlich auch gelöst aber damit die SuFu was findet:
    Für Word-Dateien ist wv zu empfehlen:
    Code:
    cat /usr/ports/converters/wv/pkg/DESCR
    Für Excel:
    Code:
    cat /usr/ports/converters/xlhtml/pkg/DESCR
    Es gibt auch wv2, ein rewrite von wv, das soll auch Excel können. Kenne es aber nicht.

    xlhtml benutze ich für emails wenn mir wieder irgend ein hein-doof Excel-tabellen sendet.


    Also, wollt den thread nicht blöd sterben lassen.
     
  6. Anzeige

    Vielleicht findest du HIER Antworten.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
Thema:

Fileconverter für die Shell

Die Seite wird geladen...

Fileconverter für die Shell - Ähnliche Themen

  1. SAMBA für Windows10 Domäne einrichten

    SAMBA für Windows10 Domäne einrichten: Hallo, ich habe letztes Wochenende verzweifelt versucht, Samba auf meinem Server einzurichten, daher versuche ich aktuell meinen Fehler zu...
  2. Empfehlung für Server Distribution

    Empfehlung für Server Distribution: Hallo, ich habe hier zu Hause einen kleinen Heimserver, auf welchem ich ein paar Daten für den Zugriff im Haus, einen kleinen Web Service für...
  3. Kleinigkeiten für Euch, mich nicht :-) pkg_add ; DVD rw mounten

    Kleinigkeiten für Euch, mich nicht :-) pkg_add ; DVD rw mounten: Hallo, ich habe 2 Problemchen. Ich kann nichts mehr installieren. Ich brauche aber unbedingt ein Brenn-Programm. Ein schönen Partitionierer usw....
  4. Welche Distri für Programming from the Ground Up

    Welche Distri für Programming from the Ground Up: Hallo! Ich möchter gerne das Buch Programming from the Ground Up durcharbeiten. savannah_nongnu_org/projects/pgubook/ Da geht es um Programmieren...
  5. Zeichen an Zeilenanfang für bestimmten Zeilenbereich einfügen

    Zeichen an Zeilenanfang für bestimmten Zeilenbereich einfügen: Hallo, ich würde gerne in einem Textdokument, z.B. von Zeile 10 - 18, an den Zeilenanfang ein # einfügen. Habe mir schon diverse Seiten zu SED...