parsen verschiedener dokumenttypen

Dieses Thema im Forum "Java/Mono/dotGNU" wurde erstellt von supersucker, 16.02.2006.

  1. #1 supersucker, 16.02.2006
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    hi!

    ich suche open-source (und wenn möglich) kostenlose APIs zum parsen der dokumenttypen pdf, doc und html...

    da hab ich nun schon einiges gefunden, gerne würde ich dazu nun eure meinungen / ideen / erfahrungen hören, da ich mich leider mit keiner der unten aufgeführten APIs auskenne.

    das schlechte zuerst:

    doc:

    kann es sein das es für das parsen von ms-word dokumenten nichts bzw. fast nichts gibt? das einzige was ich bisher gefunden hab war das Jakarta POI - HWPF projekt, das kann aber leider bisher nur word-97 dokumente lesen...

    kann mir dazu jemand eine (wenns nicht anders geht auch kostenpflichtige) API empfehlen?

    pdf:

    dazu hab ich ein paar gefunden:

    - PJ bzw. PJX von Etymon
    - JPedal
    - PDFBox
    - PDF Tools

    welches von denen würdet ihr mir empfehlen?
    oder kennt ihr vielleicht ein anderes / besseres?

    html:

    hierzu hab ich eine ganze menge gefunden, diese vielfalt ist etwas verwirrend:

    - NekoHTML
    - HTML Parser
    - Jericho HTML Parser
    - JTidy
    - TagSoup
    - HotSax

    bin erschlagen von der vielfalt, eine kurze empfehlung wäre sehr hilfreich!

    was für APIs / tools verwendet ihr denn für solche Aufgaben?


    danke für alle tips!
     
  2. Anzeige

    Schau dir mal diesen Ratgeber an. Viele Antworten inkl. passender Shell-Befehle!
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. munuel

    munuel Eroberer

    Dabei seit:
    11.09.2004
    Beiträge:
    53
    Zustimmungen:
    0
    JavaCC kannst dir mal anschauen das geht ganz gut!
    Viele Grüsse Munuel
     
  4. #3 supersucker, 16.02.2006
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    hmm,

    danke für den hinweis, da ich allerdings etwas unter zeitdruck stehe, werde ich mich da wohl nicht reinarbeiten können...

    vllt. noch ein paar ideen / empfehlungen bzgl. des html-parsers?

    oh, und noch eine frage:

    mich interessiert bei den formaten nur der text, bilder und andere nicht-textuelle elemente interessieren nicht, was würdet ihr mir empfehlen, bzw. was glaubt ihr ist leichter zu parsen:

    word -> xml
    word -> html
    word -> text

    ps: für den den es interessiert, hab fürs auslesen von word-docs noch folgende alternativen gefunden:

    - wordcnv
    - davisor offisor
    - das aperture project von sourceforge
     
Thema:

parsen verschiedener dokumenttypen

Die Seite wird geladen...

parsen verschiedener dokumenttypen - Ähnliche Themen

  1. Mit awk ein textfile parsen und SQL daraus erzeugen.

    Mit awk ein textfile parsen und SQL daraus erzeugen.: Hallo, ich hab ein (Verständnis)Problem mit awk. Der Plan ist, mit einem cronjob (awk Einzeiler) aus einem textfile Werte in eine vorhandene...
  2. Problem mit cut... (kann man vllt von rechts parsen?)

    Problem mit cut... (kann man vllt von rechts parsen?): Hi, ich habe ein Textfile aus dem ich bestimmte Inhalte rausparsen möchte. Der Aufbau ist quasi so: A: USER B C D E (F) GIch brauche alle...
  3. [Postfix] Shellscript zum Mailparsen

    [Postfix] Shellscript zum Mailparsen: Hi! Ich habe eine Mailadresse auf meinem Postfixserver definiert, an die ich Anfragen senden möchte. So soll z.B. eine neue Aufgabe eingetragen...
  4. Dateierweiterung parsen

    Dateierweiterung parsen: Hallo Ihr Lieben, ich gehe ein Verzeichnis durch und lese die Dateinamen aus. Die Dateien sollen dann like tt_mm_yyyy_lfdnr umbenannt und in...
  5. [JAVA] CSV Datei parsen

    [JAVA] CSV Datei parsen: Hey Folks! Ok dachte eigentlich das ware ein Standardproblem, welches ich innerhalb von 2min googlen selbst loesen koennte. Doch nach nun fast...