Links aus HTML-Seite extrahieren

S

Sylexx

Grünschnabel
Hallo,

ich möchte aus einer lokalen HTML-Datei bestimmte Links extrahieren. Die Vorgehensweise ist durch Aufgabenstellung vorgeschrieben:
1. alle Zeilenumbrüche "\n" durch Leerzeichen ersetzen (sodass alles in einer Zeile)
2. Dann beim relevanten <TAG> (in diesem fall "a") ein Zeilenumbruch einfügen
3 Grep anwenden

Punkt 1 ist schnell durch >> tr "\n" " " << erledigt, beim 2. Punkt weiss ich noch nicht so ganz weiter...vor allem wo und wie ich dann dieses Leerzeichen einfuegen soll (hinter </a>?)
Grep (Punkt 3) sollte mir eigentlich keine Schwierigkeiten bereiten.

Hat jemand eine Idee? Wäre echt dankbar!!!
 
Damit Du mit grep ein brauchbares Ergebnis erziehlst, musst Du ja '<a ...> ... </a>' separat in einer Zeile stehen haben. Damit muesstest Du Dir doch ueberlegen koennen, wo die Zeilenumbrueche hinsollen, oder nicht?
 
Damit Du mit grep ein brauchbares Ergebnis erziehlst, musst Du ja '<a ...> ... </a>' separat in einer Zeile stehen haben. Damit muesstest Du Dir doch ueberlegen koennen, wo die Zeilenumbrueche hinsollen, oder nicht?

Ich denke mal hinter dem </a>...
Kann man das auch mit tr umsetzen?
 
Code:
wget http://sed.sourceforge.net/grabbag/scripts/list_urls.sed
chmod +x list_urls.sed
./list_urls.sed <foo.html>
 
Leider sollen wir das ganze ohne sed realsieren...

Sinnig wäre es doch dann, vor dem "href" einen weiteren Umbruch zu machen.
 
Ohne es ausprobiert zu haben, koennte Dir die Option '-o' von grep weiterhelfen. Dann kannst Du sogar den 2. Punkt der Anweisung ueberspringen.
 
Ich habe mittlerweile in jeder Zeile einen Link stehen, in der Form
href="http://Link" target="" etc.

So, nun möchte ich egrep anwenden, doch das bereitet mir noch erhebliche Schwierigkeiten.
egrep soll praktisch nur das http://www.name.de heraussuchen. Der Rest soll weg.
Zudem soll noch gefiltert werden, ob es sich um http:// , https:// oder ftp handelt, also der Anfang des Links.

Bräuchte echt ein Rat...
 

Ähnliche Themen

Bestimmte Links aus HTML Dateien extrahieren

Links aus HTML- Datei extrahieren

postfix+saslauthd - postfix/smtpd verwendet nicht den saslauthd

Log filtern summieren mit AWK

Mondorescue über Cron-Job

Zurück
Oben