Bestimmte Links aus HTML Dateien extrahieren

Dieses Thema im Forum "Shell-Skripte" wurde erstellt von horrorhorst, 24.11.2010.

  1. #1 horrorhorst, 24.11.2010
    horrorhorst

    horrorhorst Grünschnabel

    Dabei seit:
    24.11.2010
    Beiträge:
    2
    Zustimmungen:
    0
    Moin

    Wir (mein Programmier-Partner und ich) sollen ein Skript schreiben, welches Links aus einer lokalen HTML Datei extrahiert,filtert und ausgibt.

    Hier eine Beispiel HTML Datei von Wikipedia über Bäume ^^
    http://filestore.to/?d=FR97JOUAXY
    hätte den code auch so gepostet aber dann würd ich zu viele Zeichen brauchen als hier im Forum zulässig sind :(


    Code:
    grep -o 'http://[^"]*' $C | grep -w '$A' 
    Dies ist ein Teil des skriptes um die Links aus der HTML zu kriegen und hier liegt unser Problem!
    $C = Die lokale HTML Datei
    $A = Einer der Filter für z.b. für wiki oder de.wiki damit man nur die Wiki bzw. die deutschen Wiki Links hat

    aufgerufen wird das skript wie folgt

    ./grabber.sh SUCHWORT --(http/https/ftp) [--Filter ....]

    und unser Problem ist das Filtern der Links nach dem Suchwort sprich wenn man "Baum" als Suchwort hat und de.wiki als Filter sollen nur die deutschen Baum Links aus der HTML extrahiert werden doch hier kommen wir einfach nicht weiter :oldman
     
  2. Anzeige

    Schau dir mal diese Kategorie an. Dort findest du bestimmt etwas.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. Ticha

    Ticha Linux Missionar

    Dabei seit:
    21.07.2006
    Beiträge:
    814
    Zustimmungen:
    0
    Aha :D Ihr wollt also einen Spider bauen ;) So so ...
     
  4. #3 horrorhorst, 25.11.2010
    horrorhorst

    horrorhorst Grünschnabel

    Dabei seit:
    24.11.2010
    Beiträge:
    2
    Zustimmungen:
    0
    kA ist bei uns an der FH ne Aufgabe für das Fach Unix
     
  5. #4 oiermann, 07.12.2010
    oiermann

    oiermann besserwisser

    Dabei seit:
    03.10.2006
    Beiträge:
    12
    Zustimmungen:
    0
    Ort:
    Leutkirch
    Wie wärs mit ".... | grep http | grep -i suchwort" ?

    //edit sorry, seh grad dass das höchstwahrscheinlich schon vorbei ist...
     
  6. Anzeige

    Vielleicht findest du HIER Antworten.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
Thema: Bestimmte Links aus HTML Dateien extrahieren
Besucher kamen mit folgenden Suchen
  1. bash links extrahieren

Die Seite wird geladen...

Bestimmte Links aus HTML Dateien extrahieren - Ähnliche Themen

  1. Wie kann ich x Zeichen hinter einem bestimmten Wort ausgeben ?

    Wie kann ich x Zeichen hinter einem bestimmten Wort ausgeben ?: In mehreren Dateien ist immer mehrfach ein bestimmtes Wort enthalten, gefolgt von einem "=". Ich möchte mir die dahinter folgenden 10 Zeichen...
  2. Zeichen an Zeilenanfang für bestimmten Zeilenbereich einfügen

    Zeichen an Zeilenanfang für bestimmten Zeilenbereich einfügen: Hallo, ich würde gerne in einem Textdokument, z.B. von Zeile 10 - 18, an den Zeilenanfang ein # einfügen. Habe mir schon diverse Seiten zu SED...
  3. iptables blocke nur von bestimmter ip

    iptables blocke nur von bestimmter ip: Hallo, ich habe ein kleines Heimnetzwerk mit einem Router unter openWRT. Dort kann ich mittels iptables -I OUTPUT -p udp --dport 53 -m...
  4. Mit bash Skript bestimmte Werte aus Tabelle lesen

    Mit bash Skript bestimmte Werte aus Tabelle lesen: Hallo! Ich beschäftige mich erst seit Kurzem mit bash und bin deshalb noch nicht so fit darin. Und nun habe ich schon ein kleines Problem und...
  5. Kdbus auf unbestimmte Zeit verschoben

    Kdbus auf unbestimmte Zeit verschoben: Nachdem Kdbus Anfang der vergangenen Woche von Rawhide, der Entwicklerversion von Fedora, entfernt wurde, kündigten die Entwickler nun eine...