S
Shamppi
Grünschnabel
Guten Abend,
ich hätte da mal eine Frage. Bin mir recht sicher, dass es in der Shell funktionieren sollte, aber kenne mich damit kaum aus. Zumindest bräuchte ich ein paar Hinweise.
Und zwar habe ich mir mit wget ein paar Webseiten runtergeladen, die liegen nun als html-Dokument vor. Nun kommt darin so etwas wie <p id="address">Wagenheimer Str. 4</p> vor. Nicht immer in genau der gleichen Zeile und natürlich mit vielen Sachen außenrum, die ich nicht brauche. Ich wollte jetzt also die Angabe Wagenheimer Str. 4 auslesen lassen und mit Angaben aus den anderen Webseiten systematisch aufgelistet haben, damit ich damit weiterarbeiten kann.
Wie gehe ich also vor. Die html-Dokumente sind alle in einem Ordner. Müssten eben auf folgende Angabe ausgelesen werden und dann alle zusammen in eine Datei geschrieben werden. Am liebsten die Straße, die Hausnummer und ggf. Hausnummerzusätze (wie a, b, 1 oder 2 und ähnliches) und dann gerne noch die Str. zu Straße werden lassen. Möglich wäre denke ich mal eine csv-Datei, die dann so aussehen könnte:
Wie gehe ich da am geschicktesten vor?
ich hätte da mal eine Frage. Bin mir recht sicher, dass es in der Shell funktionieren sollte, aber kenne mich damit kaum aus. Zumindest bräuchte ich ein paar Hinweise.
Und zwar habe ich mir mit wget ein paar Webseiten runtergeladen, die liegen nun als html-Dokument vor. Nun kommt darin so etwas wie <p id="address">Wagenheimer Str. 4</p> vor. Nicht immer in genau der gleichen Zeile und natürlich mit vielen Sachen außenrum, die ich nicht brauche. Ich wollte jetzt also die Angabe Wagenheimer Str. 4 auslesen lassen und mit Angaben aus den anderen Webseiten systematisch aufgelistet haben, damit ich damit weiterarbeiten kann.
Wie gehe ich also vor. Die html-Dokumente sind alle in einem Ordner. Müssten eben auf folgende Angabe ausgelesen werden und dann alle zusammen in eine Datei geschrieben werden. Am liebsten die Straße, die Hausnummer und ggf. Hausnummerzusätze (wie a, b, 1 oder 2 und ähnliches) und dann gerne noch die Str. zu Straße werden lassen. Möglich wäre denke ich mal eine csv-Datei, die dann so aussehen könnte:
Code:
Wagenheimer Straße,4
Buntenheimer Straße,10,a
Hauptstraße,193
Hauptstraße,87,b
Wie gehe ich da am geschicktesten vor?