PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : kleines Problem: pdf nach sql



Bloodsurfer
07.02.2007, 17:02
Hallo Leute, ich habe ein kleines Problem. Was ich tun will ist folgendes:
Ich habe ein paar pdf Dateien, welche Tabellen enthalten.
Als Beispiel mal folgende Datei: http://www.htw-saarland.de/studium/rechtssammlung/rechtsvorschriften_je_stg/gis/ki_ba_04.pdf/download
Es geht speziell um die Modultabellen ab Seite 5.
Ich will nun den Inhalt dieser Tabelle irgendwie auslesen und in ein sql insert script bekommen (soll in eine Oracle DB).
Wie kann ich da am besten vorgehen?

Konvertieren der pdf mit z.B. pdf2txt oder pdf2html nützt mir nicht viel. Dabei geht die Struktur der Tabellen weitestgehend verloren (leere Zellen werden zum Beispiel einfach weggelassen) und ein automatisches auslesen ist so gut wie unmöglich...

Ich könnte jedoch ins Excelformat konvertieren, das scheint zu gehen, aber nützt mir das etwas?

Habt ihr dazu Vorschläge, Ideen, Lösungsansätze?

cremi
07.02.2007, 17:56
Ich hab da vor längerer Zeit einen pdf-Generator aus DB-Daten gebaut. Also der umgekehrte weg.
Wir haben dazu pdflib (pdflib.com) verwendet. Das ist halt kostenpflichtig und wird sich für private Zwecke nicht rentieren.

Ich glaube du wirst das dann trotzdem mit pdf2text oÄ lösen müssen und dir einen geeigneten Parser basteln müssen.