HTML-Tags entfernen

Dieses Thema im Forum "Shell-Skripte" wurde erstellt von acetox94, 01.01.2010.

  1. #1 acetox94, 01.01.2010
    Zuletzt bearbeitet: 01.01.2010
    acetox94

    acetox94 Mitglied

    Dabei seit:
    25.06.2009
    Beiträge:
    27
    Zustimmungen:
    0
    Hallo Leute,

    Ich möchte gern mit einem einfachen Verfahren HTML-Tags aus einem String entfernen.

    Beispiel:
    Code:
    <html><body><iwas>Hier steht Text</iwas></body></html>
    Soll danach so aussehen:
    Code:
    Hier steht Text
    Also ganz einfach: Alles was so aussieht <*> soll entfernt werden...

    Mfg acetox94

    EDIT:

    UND DANN HÄT ICH NOCH NE FRAGE:

    Ich möchte alle Zeilenumbrüche mit hilfe von sed ersetzten, aber wenn ich »sed s/"\n"/"iwas"/g« ausführe, werden die Zeilenumbrüche nicht ersetzt...
     
  2. Anzeige

    Schau dir mal diese Kategorie an. Dort findest du bestimmt etwas.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. #2 Always-Godlike, 01.01.2010
    Always-Godlike

    Always-Godlike Das Freak

    Dabei seit:
    31.12.2006
    Beiträge:
    939
    Zustimmungen:
    0
    Ort:
    Saarland
    Das hier löscht dir alle HTML-Tags und löscht die Leerzeilen:
    Code:
    cat test.html | sed -e 's/<[^<>]*>//g; /^[ ]*$/d'
    Leerzeilen ersetzen kannst du mit:
    Code:
     s/^[ ]*$/LEERZEILE/g 
    EDIT: Sehe grad dass du Zeilenumbrüche und nicht Leerzeilen meintest, sry
     
  4. #3 acetox94, 01.01.2010
    acetox94

    acetox94 Mitglied

    Dabei seit:
    25.06.2009
    Beiträge:
    27
    Zustimmungen:
    0
    OK, ich hab meine Frage nach SEHR langer Google-Suche dann doch gefunden:

    Zu 1)
    Ausgangslage:
    Code:
    <html><body color="iwas"><div id="lol">Test</div></body></html>
    Nach ausführen des folgenden Befehls...
    Code:
    sed 's/<[^>]*>//g'
    ...ergibt sich folgender String:
    Code:
    Test
    Und zu 2)
    schafft Abhilfe, sed liest nämlich immer nur EINE Zeile aus, sucht dort nach den zu verändernden Strings und gibt die Zeile dann per STDOUT aus. Deshalb können KEINE \n ersetzt werden, weil in jeder Zeile max. 1 "\n" stehen kann, die sed anscheinend gleich löscht und dann jede Zeile einzeln ausgibt. Q.E.D. und so xD

    Mfg acetox94

    EDIT: Verdammt, Goddy war schneller xD
    Trotzdem Danke :-)
     
Thema: HTML-Tags entfernen
Besucher kamen mit folgenden Suchen
  1. html code leerzeichen entfernen

    ,
  2. filtern zwischen bestimmten html tags shell

Die Seite wird geladen...

HTML-Tags entfernen - Ähnliche Themen

  1. Punkt aus Liste entfernen

    Punkt aus Liste entfernen: Hallo, ich habe eine Liste: jal_0.0800_0.9000_90_dunkel.rad jal_0.0800_0.9000_90_hell.rad jal_0.0800_0.9000_90_mittel.rad Und aus der...
  2. wie Alte Kernelversionen unter Debian entfernen

    wie Alte Kernelversionen unter Debian entfernen: Hallo, heute ist das neue Image mit dem Kernel update installiert worden von "linux-image-3.2.0-4-amd64:amd64 3.2.54-2" auf...
  3. Leerzeichen, Großbuchstaben, HTML Tags entfernen mittels SED

    Leerzeichen, Großbuchstaben, HTML Tags entfernen mittels SED: Hallo zusammen. Ich habe folgendes Anliegen: Ich habe eine HTML Datei mit entsprechenden Tags usw. . Diese möchte ich in eine normale Textdatei...
  4. Debian empfiehlt das Entfernen des Repos debian-multimedia.org

    Debian empfiehlt das Entfernen des Repos debian-multimedia.org: Das Debian-Projekt rät Nutzern eindringlich, die inoffizielle Paketquelle debian-multimedia.org aus den Paketquellen zu entfernen, weil das Angebt...
  5. Gnome will Ausweichmodus entfernen

    Gnome will Ausweichmodus entfernen: Geht es nach dem Veröffentlichungsteam von Gnome, wird Version 3.8 im April 2013 ohne Ausweichmodus erscheinen. Gnome wird dann nur noch auf...