parsen verschiedener dokumenttypen

S

supersucker

Foren Gott
hi!

ich suche open-source (und wenn möglich) kostenlose APIs zum parsen der dokumenttypen pdf, doc und html...

da hab ich nun schon einiges gefunden, gerne würde ich dazu nun eure meinungen / ideen / erfahrungen hören, da ich mich leider mit keiner der unten aufgeführten APIs auskenne.

das schlechte zuerst:

doc:

kann es sein das es für das parsen von ms-word dokumenten nichts bzw. fast nichts gibt? das einzige was ich bisher gefunden hab war das Jakarta POI - HWPF projekt, das kann aber leider bisher nur word-97 dokumente lesen...

kann mir dazu jemand eine (wenns nicht anders geht auch kostenpflichtige) API empfehlen?

pdf:

dazu hab ich ein paar gefunden:

- PJ bzw. PJX von Etymon
- JPedal
- PDFBox
- PDF Tools

welches von denen würdet ihr mir empfehlen?
oder kennt ihr vielleicht ein anderes / besseres?

html:

hierzu hab ich eine ganze menge gefunden, diese vielfalt ist etwas verwirrend:

- NekoHTML
- HTML Parser
- Jericho HTML Parser
- JTidy
- TagSoup
- HotSax

bin erschlagen von der vielfalt, eine kurze empfehlung wäre sehr hilfreich!

was für APIs / tools verwendet ihr denn für solche Aufgaben?


danke für alle tips!
 
JavaCC kannst dir mal anschauen das geht ganz gut!
Viele Grüsse Munuel
 
hmm,

danke für den hinweis, da ich allerdings etwas unter zeitdruck stehe, werde ich mich da wohl nicht reinarbeiten können...

vllt. noch ein paar ideen / empfehlungen bzgl. des html-parsers?

oh, und noch eine frage:

mich interessiert bei den formaten nur der text, bilder und andere nicht-textuelle elemente interessieren nicht, was würdet ihr mir empfehlen, bzw. was glaubt ihr ist leichter zu parsen:

word -> xml
word -> html
word -> text

ps: für den den es interessiert, hab fürs auslesen von word-docs noch folgende alternativen gefunden:

- wordcnv
- davisor offisor
- das aperture project von sourceforge
 

Ähnliche Themen

Word Dokument in plain Text konvertieren.

Zurück
Oben