Links aus HTML- Datei extrahieren
bytecamp
+ Antworten
Ergebnis 1 bis 3 von 3

Thema: Links aus HTML- Datei extrahieren

Hybrid-Darstellung

  1. #1
    Grünschnabel
    Registriert seit
    22.09.2009
    Beiträge
    2

    Links aus HTML- Datei extrahieren

    Hallo, ich brauche dringend eine möglichst einfache Möglichkeit, Links aus einer mit wget geholten Html- Datei "rauszubringen".

    Die Links sehen so aus:
    Code:
    http://www.flickr.com/photos/10009351@N05/1128458941/
    die ganze Datei so:
    Code:
    <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><html><head><title>FlickRandom</title></head><body>
    <table width=100% cellpadding=5 border=5>
    <tr><td align=center><font size=+2><b><a href="FlickRandom.html">FlickRandom</a></b>: randomly-picked photos from <a href="http://www.flickr.com">Flickr</a>'s vast database</font><br><font size=+1>Just <a href="FlickRandom.pl?prev=288658786,1128458941,2128246746,2779581310,3225826104,3542346963">reload</a> for more! -- Created by <a href="http://www.flickr.com/photos/gustavog">GustavoG</a> and hosted by <a href="http://www.flickr.com/photos/krazydad">jbum</a><br> Or browse randomly-picked <a href="http://flagrantdisregard.com/flickr/random.php">favorites</a>! -- a tool created by <a href="http://www.flickr.com/photos/john/">fd</a></font>
    
    </td><td align=center valign=center>Usage counter:<br>12351382</td></tr></table>
    <table width=100% cellpadding=5 border=5>
    <tr>
    <td valign=center align=center><h3>IMG_5020</h3><a href="http://www.flickr.com/photos/10009351@N05/1128458941/"><img src="http://static.flickr.com/1364/1128458941_2cb98f898b_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/10009351@N05">jpanchen</a> <a href="FlickRandom.pl?user=10009351@N05"><img src="eye.png"></a></td>
    <td valign=center align=center><h3>DSCN2960</h3><a href="http://www.flickr.com/photos/22036792@N07/2128246746/"><img src="http://static.flickr.com/2084/2128246746_9c207c9e06_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/22036792@N07">bvonbothmer</a> <a href="FlickRandom.pl?user=22036792@N07"><img src="eye.png"></a></td>
    <td valign=center align=center><h3>Africa 312</h3><a href="http://www.flickr.com/photos/34275323@N06/3225826104/"><img src="http://static.flickr.com/3323/3225826104_52201157bc_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/34275323@N06">Woerner Photos</a> <a href="FlickRandom.pl?user=34275323@N06"><img src="eye.png"></a></td>
    
    </tr>
    <tr>
    <td valign=center align=center><h3>lima's taste 003</h3><a href="http://www.flickr.com/photos/23198504@N03/3542346963/"><img src="http://static.flickr.com/2131/3542346963_1e9fd84438_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/23198504@N03">neverLoveme</a> <a href="FlickRandom.pl?user=23198504@N03"><img src="eye.png"></a></td>
    <td valign=center align=center><h3>fish and chips</h3><a href="http://www.flickr.com/photos/98877406@N00/288658786/"><img src="http://static.flickr.com/108/288658786_238f6b8872_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/98877406@N00">abba et och F</a> <a href="FlickRandom.pl?user=98877406@N00"><img src="eye.png"></a></td>
    <td valign=center align=center><h3>P1100791.JPG</h3><a href="http://www.flickr.com/photos/83374864@N00/2779581310/"><img src="http://static.flickr.com/3209/2779581310_d7fb71caa6_m.jpg" /></a><br>Tia Blickley<br><br>Uploaded by: <a href="http://www.flickr.com/people/83374864@N00">goodads</a> <a href="FlickRandom.pl?user=83374864@N00"><img src="eye.png"></a></td>
    
    </tr>
    <tr><td colspan=3 align=center>Just <a href="FlickRandom.pl?prev=288658786,1128458941,2128246746,2779581310,3225826104,3542346963">reload</a> for more. Clicked too fast, and missed something interesting? Check the <a href="?oops=">OOPS</a> page.<br>Do you enjoy this tool? <a href="http://www.krazydad.com/gustavog/FlickRandom.pl?user=80122196@N00">Pay me a visit</a> and say hi!</td></tr>
    </table>
    </body></html>
    Ich konnte mit grep und sed das ganze schon etwas zurechtstutzen, aber komme nicht ganz dahin, wo ich hinwill.

    Kann mir jemand helfen, ich stehe ziemlich unter Zeitdruck ?

  2. Unixboard-Sonderaktion: Linuxbücher bei   terrashop.de   für 0,- EUR
    Unixboard Aktion bei Terrashop.de!
  3. #2
    Code Monkey Avatar von bytepool
    Registriert seit
    12.07.2003
    Ort
    /home/Niederlande/Maastricht/
    Beiträge
    682
    Hi,

    da grep greedy matcht, hab ich auch grad einen Moment gebraucht um drauf zu kommen...
    Aber wenn ich verstanden hab was du willst, sollte das folgende es tun, jedenfalls wenn man davon ausgeht, dass jeder Link mit einem Anfuehrungszeichen beendet wird.
    Code:
    grep -o 'http://www.flickr.com/[^"]*' test.html
    mfg,
    bytepool
    Getting yourself confused with a programming language isn't a sane thing to do, but a lot of people do it
    - Mark-Jason Dominus (in Why I Hate Advocacy)

  4. #3
    Grünschnabel
    Registriert seit
    22.09.2009
    Beiträge
    2
    Optimal, vielen vielen Dank für die schnelle Hilfe!

+ Antworten

Ähnliche Themen

  1. HTML Dateien auf tote Links untersuchen
    Von nighT im Forum Shell-Skripte
    Antworten: 1
    Letzter Beitrag: 22.06.2009, 21:23
  2. perl datei in html dokument aufrufen
    Von aktivfrühstück im Forum Ruby, php, Perl, Python ...
    Antworten: 0
    Letzter Beitrag: 04.09.2007, 09:12
  3. Html/Css - Links
    Von Penta im Forum Ruby, php, Perl, Python ...
    Antworten: 8
    Letzter Beitrag: 05.08.2007, 03:34
  4. Wert aus HTML Datei einlesen
    Von lolomat im Forum Shell-Skripte
    Antworten: 1
    Letzter Beitrag: 06.07.2007, 18:11
  5. Download einer HTML-Datei
    Von nightlife_chili im Forum Web- & File-Services
    Antworten: 3
    Letzter Beitrag: 17.10.2006, 14:05

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein