pdf auslesen und ausgeben

Graf_Ithaka

Graf_Ithaka

Routinier
Hallo alle zusammen,

erstmal hoffe ich dass der Thread in der richtigen Kategorie gelandet ist, falls dem nicht so ist, bitte verschieben!
Mein momentanes Projekt betrifft ein kleine Programm (oder Script) welches täglich eine pdf mit Namen <Datumsstempel>.pdf herunterlädt, diese nach einer gewissen (variabel einstellbaren) Zeichenfolge durchsucht und die Zeile mit der Zeichenfolge ausgibt. Das ganze soll in Richtung Notifier gehen - um den Hintergrund zu erklären, ich möchte den Supplierplan unserer Schule der als pdf täglich online gestellt wird auslesen und die Supplierungen für den nächsten Tag anzeigen lassen. Die Variable ist natürlich die Klasse.
Es sei gesagt, dass ich selbst programmiertechnisch unerfahren bin und denke ich lern durch so ein Projekt sicher etwas dazu. Allerdings stellt sich die Frage wo ich ansetzen sollte - Das ganze programmieren oder scripten? Was meint ihr? Und irgendjemand eine Idee wie man eine pdf ausliest (pdf2html oder pdf2text sind denke ich mal keine besonders gute Idee). Hier als Beispiel die pdf von Montag.

MfG,
Graf_Ithaka
 
Ich würde dir empfehlen java in Verbindung mit der library PDFBox zu verwenden.

Damit wirst du recht schnell sehr gute Ergebnisse erzielen.
 
Ich würde dir empfehlen java in Verbindung mit der library PDFBox zu verwenden.

Damit wirst du recht schnell sehr gute Ergebnisse erzielen.

Danke für die Hilfe, werde mich sobald ich mal mehr Zeit finde an die Arbeit machen :)

MfG,
Graf_Ithaka
 
Ich glaube das man zuerst schauen sollte wie man die PDF in eine Textdatei bekommt. Auf die Textdatei kann man dann relativ einfach wieder mit Shellscript zugreifen und das wichtige Extrahieren.

pdftotext übernimmt z. B. die Aufgabe ein PDF-Dokument in eine Textdatei umzuwandeln.

MfG PBeck
 
pdftotext bringt nicht viel, da die Supplierungen in einer Tabelle eingeschlossen sind und bei der Ausgabe in eine Textdatei dann nur als eine Zeile behandelt werden. Da mich aber nur die Supplierung in einer einzelnen Zeile betrifft waere das unpraktisch.

MfG,
Graf_Ithaka
 
Du könntest dir mal das ReportLab-Kit für Python angucken, obwohl ich nicht weiß wie es da mit Einlesen aussieht.
 
pdftotext bringt nicht viel, da die Supplierungen in einer Tabelle eingeschlossen sind und bei der Ausgabe in eine Textdatei dann nur als eine Zeile behandelt werden. Da mich aber nur die Supplierung in einer einzelnen Zeile betrifft waere das unpraktisch.

MfG,
Graf_Ithaka

Mit

Code:
pdftotext -layout [pdf]

bleibt zumindest die Tabelle erhalten
 
Danke euch schon einmal für die Anregungen!

Da ich momentan wenig Freizeit habe, werde ich das Problem wohl anfangs mit einem shellscript lösen (danke an hengs für den Tipp mit layout, jaja ich sollte mal die manpages durchlesen..) und wenn ich dann wieder einmal Zeit finde etwas komplexeres angehen.

MfG,
Graf_Ithaka
 
Ich würde dir empfehlen java in Verbindung mit der library PDFBox zu verwenden.

Damit wirst du recht schnell sehr gute Ergebnisse erzielen.

Hallo.
bietet sich die PDFBox auch zum Schreiben an?
Suche eine simple und schnelle Möglichkeit Text als PDF zu speichern.
Oder habt ihr da andere Lösungsvorschläge?
Wichtig wäre, ohne weitere Zusatzkosten...


Danke schon mal.
MfG Gerrit
 
Zurück
Oben