Links aus HTML- Datei extrahieren

Dieses Thema im Forum "Shell-Skripte" wurde erstellt von mfoe33, 22.09.2009.

  1. mfoe33

    mfoe33 Grünschnabel

    Dabei seit:
    22.09.2009
    Beiträge:
    2
    Zustimmungen:
    0
    Hallo, ich brauche dringend eine möglichst einfache Möglichkeit, Links aus einer mit wget geholten Html- Datei "rauszubringen".

    Die Links sehen so aus:
    Code:
    http://www.flickr.com/photos/10009351@N05/1128458941/
    
    die ganze Datei so:
    Code:
    <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><html><head><title>FlickRandom</title></head><body>
    <table width=100% cellpadding=5 border=5>
    <tr><td align=center><font size=+2><b><a href="FlickRandom.html">FlickRandom</a></b>: randomly-picked photos from <a href="http://www.flickr.com">Flickr</a>'s vast database</font><br><font size=+1>Just <a href="FlickRandom.pl?prev=288658786,1128458941,2128246746,2779581310,3225826104,3542346963">reload</a> for more! -- Created by <a href="http://www.flickr.com/photos/gustavog">GustavoG</a> and hosted by <a href="http://www.flickr.com/photos/krazydad">jbum</a><br> Or browse randomly-picked <a href="http://flagrantdisregard.com/flickr/random.php">favorites</a>! -- a tool created by <a href="http://www.flickr.com/photos/john/">fd</a></font>
    
    </td><td align=center valign=center>Usage counter:<br>12351382</td></tr></table>
    <table width=100% cellpadding=5 border=5>
    <tr>
    <td valign=center align=center><h3>IMG_5020</h3><a href="http://www.flickr.com/photos/10009351@N05/1128458941/"><img src="http://static.flickr.com/1364/1128458941_2cb98f898b_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/10009351@N05">jpanchen</a> <a href="FlickRandom.pl?user=10009351@N05"><img src="eye.png"></a></td>
    <td valign=center align=center><h3>DSCN2960</h3><a href="http://www.flickr.com/photos/22036792@N07/2128246746/"><img src="http://static.flickr.com/2084/2128246746_9c207c9e06_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/22036792@N07">bvonbothmer</a> <a href="FlickRandom.pl?user=22036792@N07"><img src="eye.png"></a></td>
    <td valign=center align=center><h3>Africa 312</h3><a href="http://www.flickr.com/photos/34275323@N06/3225826104/"><img src="http://static.flickr.com/3323/3225826104_52201157bc_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/34275323@N06">Woerner Photos</a> <a href="FlickRandom.pl?user=34275323@N06"><img src="eye.png"></a></td>
    
    </tr>
    <tr>
    <td valign=center align=center><h3>lima's taste 003</h3><a href="http://www.flickr.com/photos/23198504@N03/3542346963/"><img src="http://static.flickr.com/2131/3542346963_1e9fd84438_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/23198504@N03">neverLoveme</a> <a href="FlickRandom.pl?user=23198504@N03"><img src="eye.png"></a></td>
    <td valign=center align=center><h3>fish and chips</h3><a href="http://www.flickr.com/photos/98877406@N00/288658786/"><img src="http://static.flickr.com/108/288658786_238f6b8872_m.jpg" /></a><br><br><br>Uploaded by: <a href="http://www.flickr.com/people/98877406@N00">abba et och F</a> <a href="FlickRandom.pl?user=98877406@N00"><img src="eye.png"></a></td>
    <td valign=center align=center><h3>P1100791.JPG</h3><a href="http://www.flickr.com/photos/83374864@N00/2779581310/"><img src="http://static.flickr.com/3209/2779581310_d7fb71caa6_m.jpg" /></a><br>Tia Blickley<br><br>Uploaded by: <a href="http://www.flickr.com/people/83374864@N00">goodads</a> <a href="FlickRandom.pl?user=83374864@N00"><img src="eye.png"></a></td>
    
    </tr>
    <tr><td colspan=3 align=center>Just <a href="FlickRandom.pl?prev=288658786,1128458941,2128246746,2779581310,3225826104,3542346963">reload</a> for more. Clicked too fast, and missed something interesting? Check the <a href="?oops=">OOPS</a> page.<br>Do you enjoy this tool? <a href="http://www.krazydad.com/gustavog/FlickRandom.pl?user=80122196@N00">Pay me a visit</a> and say hi!</td></tr>
    </table>
    </body></html>
    
    Ich konnte mit grep und sed das ganze schon etwas zurechtstutzen, aber komme nicht ganz dahin, wo ich hinwill.

    Kann mir jemand helfen, ich stehe ziemlich unter Zeitdruck :( ?
     
  2. Anzeige

    Schau dir mal diese Kategorie an. Dort findest du bestimmt etwas.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. #2 bytepool, 23.09.2009
    bytepool

    bytepool Code Monkey

    Dabei seit:
    12.07.2003
    Beiträge:
    791
    Zustimmungen:
    0
    Ort:
    /home/sweden/göteborg
    Hi,

    da grep greedy matcht, hab ich auch grad einen Moment gebraucht um drauf zu kommen...
    Aber wenn ich verstanden hab was du willst, sollte das folgende es tun, jedenfalls wenn man davon ausgeht, dass jeder Link mit einem Anfuehrungszeichen beendet wird.
    Code:
    grep -o 'http://www.flickr.com/[^"]*' test.html
    
    mfg,
    bytepool
     
  4. mfoe33

    mfoe33 Grünschnabel

    Dabei seit:
    22.09.2009
    Beiträge:
    2
    Zustimmungen:
    0
    Optimal, vielen vielen Dank für die schnelle Hilfe! :))
     
Thema:

Links aus HTML- Datei extrahieren

Die Seite wird geladen...

Links aus HTML- Datei extrahieren - Ähnliche Themen

  1. Links aus HTML-Seite extrahieren

    Links aus HTML-Seite extrahieren: Hallo, ich möchte aus einer lokalen HTML-Datei bestimmte Links extrahieren. Die Vorgehensweise ist durch Aufgabenstellung vorgeschrieben: 1....
  2. Linksys-Router mit offizieller DD-WRT-Unterstützung

    Linksys-Router mit offizieller DD-WRT-Unterstützung: Linksys und NewMedia-NET haben die Linux-basierte alternative OpenSource-Firmware für WLAN-Router und eingebettete Systeme, »DD-WRT«, auch für die...
  3. Linksys WRT1900ACS fit für OpenWRT

    Linksys WRT1900ACS fit für OpenWRT: Im letzten Jahr hat Belkin mit dem Linksys WRT1900AC einen Nachfolger des in Open-Source-Kreisen beliebten WLAN-Routers WRT54G auf den Markt...
  4. Mozilla Foundation plant gesponsorte Links

    Mozilla Foundation plant gesponsorte Links: Mozilla plant, mit dem Einblenden von Werbeflächen zusätzliche Einnahmequellen zu erschließen, will dazu aber maßvoll vorgehen. Firefox-Nutzer...
  5. Linksys WRT 1900AC tritt in die Fußstapfen des WRT54G

    Linksys WRT 1900AC tritt in die Fußstapfen des WRT54G: Linksys, ein zu Belkin gehörender Hersteller von Netzwerkhardware für den Heimbereich, hat mit dem Linksys WRT 1900AC einen Nachfolger des in...