Bestimmte Links aus HTML Dateien extrahieren

H

horrorhorst

Grünschnabel
Moin

Wir (mein Programmier-Partner und ich) sollen ein Skript schreiben, welches Links aus einer lokalen HTML Datei extrahiert,filtert und ausgibt.

Hier eine Beispiel HTML Datei von Wikipedia über Bäume ^^
http://filestore.to/?d=FR97JOUAXY
hätte den code auch so gepostet aber dann würd ich zu viele Zeichen brauchen als hier im Forum zulässig sind :(


Code:
grep -o 'http://[^"]*' $C | grep -w '$A'
Dies ist ein Teil des skriptes um die Links aus der HTML zu kriegen und hier liegt unser Problem!
$C = Die lokale HTML Datei
$A = Einer der Filter für z.b. für wiki oder de.wiki damit man nur die Wiki bzw. die deutschen Wiki Links hat

aufgerufen wird das skript wie folgt

./grabber.sh SUCHWORT --(http/https/ftp) [--Filter ....]

und unser Problem ist das Filtern der Links nach dem Suchwort sprich wenn man "Baum" als Suchwort hat und de.wiki als Filter sollen nur die deutschen Baum Links aus der HTML extrahiert werden doch hier kommen wir einfach nicht weiter :oldman
 
Aha :D Ihr wollt also einen Spider bauen ;) So so ...
 
kA ist bei uns an der FH ne Aufgabe für das Fach Unix
 
Wie wärs mit ".... | grep http | grep -i suchwort" ?

//edit sorry, seh grad dass das höchstwahrscheinlich schon vorbei ist...
 

Ähnliche Themen

Verzeichnis mit 1200 Dateien auf Verweise in Textdateien checken

Links aus HTML-Seite extrahieren

Links aus HTML- Datei extrahieren

Server-Monitoring mit RRDTool

Zurück
Oben