Links aus HTML- Datei extrahieren

M

mfoe33

Grünschnabel
Hallo, ich brauche dringend eine möglichst einfache Möglichkeit, Links aus einer mit wget geholten Html- Datei "rauszubringen".

Die Links sehen so aus:
Code:
http://www.flickr.com/photos/10009351@N05/1128458941/
die ganze Datei so:
Code:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><html><head><title>FlickRandom</title></head><body>
<table width=100% cellpadding=5 border=5>
<tr><td align=center><font size=+2><b><a href="FlickRandom.html">FlickRandom</a></b>: randomly-picked photos from <a href="http://www.flickr.com">Flickr</a>'s vast database</font><br><font size=+1>Just <a href="FlickRandom.pl?prev=288658786,1128458941,2128246746,2779581310,3225826104,3542346963">reload</a> for more! -- Created by <a href="http://www.flickr.com/photos/gustavog">GustavoG</a> and hosted by <a href="http://www.flickr.com/photos/krazydad">jbum</a><br> Or browse randomly-picked <a href="http://flagrantdisregard.com/flickr/random.php">favorites</a>! -- a tool created by <a href="http://www.flickr.com/photos/john/">fd</a></font>

</td><td align=center valign=center>Usage counter:<br>12351382</td></tr></table>
<table width=100% cellpadding=5 border=5>
<tr>
<td valign=center align=center><h3>IMG_5020</h3><a href="http://www.flickr.com/photos/10009351@N05/1128458941/"><img src="http://static.flickr.com/1364/1128458941_2cb98f898b_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/10009351@N05">jpanchen</a> <a href="FlickRandom.pl?user=10009351@N05"><img src="eye.png"></a></td>
<td valign=center align=center><h3>DSCN2960</h3><a href="http://www.flickr.com/photos/22036792@N07/2128246746/"><img src="http://static.flickr.com/2084/2128246746_9c207c9e06_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/22036792@N07">bvonbothmer</a> <a href="FlickRandom.pl?user=22036792@N07"><img src="eye.png"></a></td>
<td valign=center align=center><h3>Africa 312</h3><a href="http://www.flickr.com/photos/34275323@N06/3225826104/"><img src="http://static.flickr.com/3323/3225826104_52201157bc_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/34275323@N06">Woerner Photos</a> <a href="FlickRandom.pl?user=34275323@N06"><img src="eye.png"></a></td>

</tr>
<tr>
<td valign=center align=center><h3>lima's taste 003</h3><a href="http://www.flickr.com/photos/23198504@N03/3542346963/"><img src="http://static.flickr.com/2131/3542346963_1e9fd84438_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/23198504@N03">neverLoveme</a> <a href="FlickRandom.pl?user=23198504@N03"><img src="eye.png"></a></td>
<td valign=center align=center><h3>fish and chips</h3><a href="http://www.flickr.com/photos/98877406@N00/288658786/"><img src="http://static.flickr.com/108/288658786_238f6b8872_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/98877406@N00">abba et och F</a> <a href="FlickRandom.pl?user=98877406@N00"><img src="eye.png"></a></td>
<td valign=center align=center><h3>P1100791.JPG</h3><a href="http://www.flickr.com/photos/83374864@N00/2779581310/"><img src="http://static.flickr.com/3209/2779581310_d7fb71caa6_m.jpg" /></a><br>Tia Blickley<br><br>Uploaded by: <a href="http://www.flickr.com/people/83374864@N00">goodads</a> <a href="FlickRandom.pl?user=83374864@N00"><img src="eye.png"></a></td>

</tr>
<tr><td colspan=3 align=center>Just <a href="FlickRandom.pl?prev=288658786,1128458941,2128246746,2779581310,3225826104,3542346963">reload</a> for more. Clicked too fast, and missed something interesting? Check the <a href="?oops=">OOPS</a> page.<br>Do you enjoy this tool? <a href="http://www.krazydad.com/gustavog/FlickRandom.pl?user=80122196@N00">Pay me a visit</a> and say hi!</td></tr>
</table>
</body></html>

Ich konnte mit grep und sed das ganze schon etwas zurechtstutzen, aber komme nicht ganz dahin, wo ich hinwill.

Kann mir jemand helfen, ich stehe ziemlich unter Zeitdruck :( ?
 
Hi,

da grep greedy matcht, hab ich auch grad einen Moment gebraucht um drauf zu kommen...
Aber wenn ich verstanden hab was du willst, sollte das folgende es tun, jedenfalls wenn man davon ausgeht, dass jeder Link mit einem Anfuehrungszeichen beendet wird.
Code:
grep -o 'http://www.flickr.com/[^"]*' test.html

mfg,
bytepool
 
Optimal, vielen vielen Dank für die schnelle Hilfe! :))
 

Ähnliche Themen

CentOS 5.8 –SQL Abfrage– HTML wird generiert und daraus müssen mehrere Mails versendet werden

Akonadi startet nicht mehr

dovecot und postfix Konfiguration Problem

NagiosGrapher 1.7.1 funktioniert nicht

in_array Problem

Zurück
Oben