PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : parsen verschiedener dokumenttypen



supersucker
16.02.2006, 09:25
hi!

ich suche open-source (und wenn möglich) kostenlose APIs zum parsen der dokumenttypen pdf, doc und html...

da hab ich nun schon einiges gefunden, gerne würde ich dazu nun eure meinungen / ideen / erfahrungen hören, da ich mich leider mit keiner der unten aufgeführten APIs auskenne.

das schlechte zuerst:

doc:

kann es sein das es für das parsen von ms-word dokumenten nichts bzw. fast nichts gibt? das einzige was ich bisher gefunden hab war das Jakarta POI - HWPF projekt, das kann aber leider bisher nur word-97 dokumente lesen...

kann mir dazu jemand eine (wenns nicht anders geht auch kostenpflichtige) API empfehlen?

pdf:

dazu hab ich ein paar gefunden:

- PJ bzw. PJX von Etymon
- JPedal
- PDFBox
- PDF Tools

welches von denen würdet ihr mir empfehlen?
oder kennt ihr vielleicht ein anderes / besseres?

html:

hierzu hab ich eine ganze menge gefunden, diese vielfalt ist etwas verwirrend:

- NekoHTML
- HTML Parser
- Jericho HTML Parser
- JTidy
- TagSoup
- HotSax

bin erschlagen von der vielfalt, eine kurze empfehlung wäre sehr hilfreich!

was für APIs / tools verwendet ihr denn für solche Aufgaben?


danke für alle tips!

munuel
16.02.2006, 10:33
JavaCC kannst dir mal anschauen das geht ganz gut!
Viele Grüsse Munuel

supersucker
16.02.2006, 10:48
hmm,

danke für den hinweis, da ich allerdings etwas unter zeitdruck stehe, werde ich mich da wohl nicht reinarbeiten können...

vllt. noch ein paar ideen / empfehlungen bzgl. des html-parsers?

oh, und noch eine frage:

mich interessiert bei den formaten nur der text, bilder und andere nicht-textuelle elemente interessieren nicht, was würdet ihr mir empfehlen, bzw. was glaubt ihr ist leichter zu parsen:

word -> xml
word -> html
word -> text

ps: für den den es interessiert, hab fürs auslesen von word-docs noch folgende alternativen gefunden:

- wordcnv
- davisor offisor
- das aperture project von sourceforge