HTML-Tags entfernen

A

acetox94

Mitglied
Hallo Leute,

Ich möchte gern mit einem einfachen Verfahren HTML-Tags aus einem String entfernen.

Beispiel:
Code:
<html><body><iwas>Hier steht Text</iwas></body></html>

Soll danach so aussehen:
Code:
Hier steht Text

Also ganz einfach: Alles was so aussieht <*> soll entfernt werden...

Mfg acetox94

EDIT:

UND DANN HÄT ICH NOCH NE FRAGE:

Ich möchte alle Zeilenumbrüche mit hilfe von sed ersetzten, aber wenn ich »sed s/"\n"/"iwas"/g« ausführe, werden die Zeilenumbrüche nicht ersetzt...
 
Zuletzt bearbeitet:
Das hier löscht dir alle HTML-Tags und löscht die Leerzeilen:
Code:
cat test.html | sed -e 's/<[^<>]*>//g; /^[ ]*$/d'

Leerzeilen ersetzen kannst du mit:
Code:
 s/^[ ]*$/LEERZEILE/g

EDIT: Sehe grad dass du Zeilenumbrüche und nicht Leerzeilen meintest, sry
 
OK, ich hab meine Frage nach SEHR langer Google-Suche dann doch gefunden:

Zu 1)
Ausgangslage:
Code:
<html><body color="iwas"><div id="lol">Test</div></body></html>

Nach ausführen des folgenden Befehls...
Code:
sed 's/<[^>]*>//g'

...ergibt sich folgender String:
Code:
Test

Und zu 2)
schafft Abhilfe, sed liest nämlich immer nur EINE Zeile aus, sucht dort nach den zu verändernden Strings und gibt die Zeile dann per STDOUT aus. Deshalb können KEINE \n ersetzt werden, weil in jeder Zeile max. 1 "\n" stehen kann, die sed anscheinend gleich löscht und dann jede Zeile einzeln ausgibt. Q.E.D. und so xD

Mfg acetox94

EDIT: Verdammt, Goddy war schneller xD
Trotzdem Danke :-)
 

Ähnliche Themen

Port generieren, wenn nicht dann

Leerzeichen, Großbuchstaben, HTML Tags entfernen mittels SED

Probleme mit sed: im Text eine Zeile in Großbuchstaben ?

Suchen und ersetzen in HTML Dokumenten

Last mit etc/passwd anzeigen lassen

Zurück
Oben