Dateien auslesen und Daten systematisch angeordnet in Datei ausgeben

Dieses Thema im Forum "Shell-Skripte" wurde erstellt von Shamppi, 08.04.2015.

  1. #1 Shamppi, 08.04.2015
    Shamppi

    Shamppi Grünschnabel

    Dabei seit:
    08.04.2015
    Beiträge:
    3
    Zustimmungen:
    0
    Guten Abend,

    ich hätte da mal eine Frage. Bin mir recht sicher, dass es in der Shell funktionieren sollte, aber kenne mich damit kaum aus. Zumindest bräuchte ich ein paar Hinweise.

    Und zwar habe ich mir mit wget ein paar Webseiten runtergeladen, die liegen nun als html-Dokument vor. Nun kommt darin so etwas wie <p id="address">Wagenheimer Str. 4</p> vor. Nicht immer in genau der gleichen Zeile und natürlich mit vielen Sachen außenrum, die ich nicht brauche. Ich wollte jetzt also die Angabe Wagenheimer Str. 4 auslesen lassen und mit Angaben aus den anderen Webseiten systematisch aufgelistet haben, damit ich damit weiterarbeiten kann.

    Wie gehe ich also vor. Die html-Dokumente sind alle in einem Ordner. Müssten eben auf folgende Angabe ausgelesen werden und dann alle zusammen in eine Datei geschrieben werden. Am liebsten die Straße, die Hausnummer und ggf. Hausnummerzusätze (wie a, b, 1 oder 2 und ähnliches) und dann gerne noch die Str. zu Straße werden lassen. Möglich wäre denke ich mal eine csv-Datei, die dann so aussehen könnte:
    Code:
    Wagenheimer Straße,4
    Buntenheimer Straße,10,a
    Hauptstraße,193
    Hauptstraße,87,b
    Wie gehe ich da am geschicktesten vor?
     
  2. Anzeige

    Schau dir mal diese Kategorie an. Dort findest du bestimmt etwas.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. marce

    marce Kaiser

    Dabei seit:
    01.08.2007
    Beiträge:
    1.053
    Zustimmungen:
    8
    Bastel Dir eine RegularExpressen, die das Pattern matcht (also das "<p id="address">.*</p>") und lass Dir dann daraus das .*-gematchte Ausgeben,

    sed kann sowas sehr gut.
     
  4. #3 Programmer78, 08.04.2015
    Programmer78

    Programmer78 Foren As

    Dabei seit:
    28.11.2007
    Beiträge:
    92
    Zustimmungen:
    1
    .. und falls du in meinem Impressum landest, bekomme ich Werbung von dir? Ne also von unangeforderter Werbung habe ich genug. Sowas unterstütze ich nicht.
     
  5. marce

    marce Kaiser

    Dabei seit:
    01.08.2007
    Beiträge:
    1.053
    Zustimmungen:
    8
    Ach, waren das noch Zeiten, in denen man Leuten nicht automatisch böses unterstellte....

    Mir zumindest fallen auch min. 5346765 vernünftige, plausible und gute Gründe ein, warum man sowas machen wöllte.
     
  6. #5 Programmer78, 08.04.2015
    Programmer78

    Programmer78 Foren As

    Dabei seit:
    28.11.2007
    Beiträge:
    92
    Zustimmungen:
    1
    Marce, ja da hast du Recht. Man sollte doch nicht gleich ... mein Fehler.

    Bei persönlichen Daten, die auf diese Art und Weise gewonnen werden, hab ich gleich rot gesehen und an Adresshändler gedacht. Habe mal so eine Doku im TV gesehen. Ach die bringen aber auch nur Negatives im TV. Will auch mal an was Gutes Denken. Entschuldige Shamppi ... weiter im Text äh in der html.
     
  7. #6 Shamppi, 09.04.2015
    Shamppi

    Shamppi Grünschnabel

    Dabei seit:
    08.04.2015
    Beiträge:
    3
    Zustimmungen:
    0
    Keine Angst Programmer, selbst wenn ich was Böses wollte, ich bekomme es nicht hin. ;) Aber ich wollte nicht mal was Böses, möchte einfach für mich selber ein paar Daten sammeln und analysieren. Aber ich finde ja nicht mal den Einstieg. Sed klingt gut, damit könnte man wohl auch mehrere Dateien durchsuchen lassen und die Ergebnisse dann gesammelt in einer Datei ablegen lassen. Aber ich bekomme es nicht mal hin mir ein einziges anzeigen zu lassen. Ich habe es geschafft, die jeweilige ganze Zeile auslesen zu lassen in der der gesuchte Begriff vorkommt, aber das ist ja nicht Sinn und Zweck. Versuche ich es dann bspw. mit
    Code:
    sed -n "/<p id="address">/,/<p>/p" file.txt
    wird nichts ausgegeben. Was mache ich falsch?
     
  8. #7 Spröde, 09.04.2015
    Spröde

    Spröde Alter Sack

    Dabei seit:
    22.01.2012
    Beiträge:
    173
    Zustimmungen:
    0
    Bis jetzt ein falsches Quoting, teste mal:
    Code:
    sed -n '/<p id="address">/,/<\/p>/p'
     
  9. Anzeige

    Vielleicht findest du HIER Antworten.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  10. #8 Shamppi, 09.04.2015
    Shamppi

    Shamppi Grünschnabel

    Dabei seit:
    08.04.2015
    Beiträge:
    3
    Zustimmungen:
    0
    Nö, das liefert mir einfach die ganze Zeile aus. Ich kapier's nicht, dachte nicht, dass dies so schwierig ist... :think:
     
  11. #9 Spröde, 09.04.2015
    Spröde

    Spröde Alter Sack

    Dabei seit:
    22.01.2012
    Beiträge:
    173
    Zustimmungen:
    0
    Code:
    grep -Poi '(?<=<p id="address">).*?(?=</p>)'
    Der liefert nur die Adressen, falls Dein grep Perl-Regex beherrscht.
     
Thema:

Dateien auslesen und Daten systematisch angeordnet in Datei ausgeben

Die Seite wird geladen...

Dateien auslesen und Daten systematisch angeordnet in Datei ausgeben - Ähnliche Themen

  1. ca. 1200 PDF-Dateien auslesen und bestimmte Daten in eine CSV-Datei speichern

    ca. 1200 PDF-Dateien auslesen und bestimmte Daten in eine CSV-Datei speichern: Hallo Leute, heute brauche ich mal einen dringenden Rat von Euch. Ich habe hier etwas mehr als 1200 PDF-Dateien (Text), die jeweils ein...
  2. Log Auslesen und die darin gennnten Dateien verarbeiten

    Log Auslesen und die darin gennnten Dateien verarbeiten: Hallo, ich suche eine Möglichkeit via sed eine Steamupdate Log aus zu werten und zu verarbeiten ---------- Checking bootstrapper version...
  3. Mit Picasa vergebene Tags aus jpg-Dateien auslesen

    Mit Picasa vergebene Tags aus jpg-Dateien auslesen: Hallo zusammen, vor ca einer Woche von Win auf Ubuntu (11.04) umgestiegen, stehe ich nun vor dem ersten Problem. Ich habe Fotos per Picasa mit...
  4. Shell-Script zum auslesen von Dateien aus versch. Verzeichnissen

    Shell-Script zum auslesen von Dateien aus versch. Verzeichnissen: Hallo Leute, ich habe ein Problem wo ich mit meinem Wissensstand einfach nicht weiterkomme: Ich habe etwa 3000 verschiedene Verzeichnisse in...
  5. Shell-Script > neustes Aenderungsdatum von mehreren Dateien auslesen

    Shell-Script > neustes Aenderungsdatum von mehreren Dateien auslesen: Hallo zusammen, Dies ist meiner erster Post, mit Boardsuche wurde ich leider nicht fündig, aber ich hoffe, jemand weiss Rat :)! Folgende...