sed:suche nach Textmuster

A

anja_22

Grünschnabel
Hi,
also ich hab ein Dateistruktur,die folgendermaße aussieht:
ein table und mehrer Absätze sowas hier:
<p class="text2">
<a href="/link.htmll"><b>hier steht was...</b></a><br>
<span class="text3">Hier auch <a href="/link2.html" class="borderline">und so weiter..-</a></span>

</p>
hier mal ein Dateiauszug:

<table border="0" >
<tr>
<td valign="top">
<span class="test">

<b>26.11.2007</b>
</span>
</td>

</tr>
</table>
<p class="text2">
<a href="/link.htmll"><b>hier sthet was...</b></a><br>
<span class="text3">Hier auch <a href="/link2.html" class="borderline">und so weiter..-</a></span>

</p>
...
<p class="text2">
<a href="/link.htmll"><b>hier sthet was...</b></a><br>
<span class="text3">Hier auch <a href="/link2.html" class="borderline">und so weiter..-</a></span>

</p>

<table border="0" cellpadding="4" cellspacing="0" width="480" style="border: solid 1px #4a5a74">
<tr>

Ich will jetzt nur alles im jew. Absatz haben: ab <b> bis </span>
es soll nur der text da stehen ohne html Tags...
mehrere Zeilen mit : getrennt:
z:b. soll eine gefundene Zeile laut Beispiel source dann so ausshehen:
hier steht was...:Hier auch

->das "und so weiter.." will ich nicht haben.

ich hab echt schon alles versucht,verzweifele total: wenn also jemand eine Idee hat : Biiiittttttttte !!
Lieben Gruß
Anja
 
Hallo

Wenn ich deinen Beispieltext in eine Datei Namens test.html gebe, dann funktioniert folgendes:
Sed Multiline, da du ja alles in einer Zeile willst und tags auch über mehrere Zeilen gehen können:

Code:
wolle@Nietzsche:/tmp
$ sed -ne '/^$/d;:l;$!{N;b l};$s/\n//g;s/[<][^>]*[>]\([^<]*\)/:\1/g;s/:\{2,\}/:/g;p' test.html
:hier steht was...:Hier auch :und so weiter..-:hier mal ein Dateiauszug:26.11.2007:hier sthet was...:Hier auch :und so weiter..-:...:hier sthet was...:Hier auch :und so weiter..-:

HTML zu parsen ist allerdings immer recht heikel.
Wenn das wenigstens einigermaßen fehlerfrei erstellt ist, sollte das funktionieren. Garantieren kann das aber keiner.
;)

Gruß Wolfgang
 

Ähnliche Themen

CentOS 5.8 –SQL Abfrage– HTML wird generiert und daraus müssen mehrere Mails versendet werden

dovecot und postfix Konfiguration Problem

NagiosGrapher 1.7.1 funktioniert nicht

Links aus HTML- Datei extrahieren

Ubuntu X / dbus problem

Zurück
Oben