html seite runterladen und die Inhalte als .txt-Date speichern

Dieses Thema im Forum "Shell-Skripte" wurde erstellt von Noranora, 20.01.2016.

  1. #1 Noranora, 20.01.2016
    Noranora

    Noranora Grünschnabel

    Dabei seit:
    20.01.2016
    Beiträge:
    1
    Zustimmungen:
    0
    Hallo!
    Ich bin noch neu auf dem Gebiet, von daher denke ich sind meine Fragen für manche von euch recht simpel.
    Mit den Standardbefehlen habe ich schon rumexperimentiert, jetzt stehe ich jedoch vo einem Problem.


    Ich würde gerne Texte aus Internetseiten runterladen und als Textdateien auf meinem Rechner speichern.Speziell die einzelnen Artikel von dieser Seite http://www.nw.de/

    Bisher bin ich soweit:

    wget -r -l 2 http://www.nw.de/

    Wenn ich dies mache, werden sämtliche Sachen von der Seite runtergeladen, und man kann die Texte nicht lesen, da sie halt nur im Editor mir allem was dazu gehört erscheinen. Könnt ihr mir helfen? Ich wäre wirklcih sehr dankbar!

    LG
     
  2. Anzeige

    Schau dir mal diese Kategorie an. Dort findest du bestimmt etwas.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. marce

    marce Kaiser

    Dabei seit:
    01.08.2007
    Beiträge:
    1.053
    Zustimmungen:
    8
    Möglichkeiten gibt's da viele
    * Text-Browder "remote" verwenden und die Konsolen-Ausgabe in Text-Datei ausgeben - dann bekommst Du ggf., je nach Browser, auch Java-Script und iframes interpretiert
    * wget / curl und ein Tool wie html2txt verwenden
    * mit sed / awk / perl / php (bei den Hochsprachen mit evtl einer passenden Bibliothek) die html-Tags rauswerfen
    * evtl. bietet die Seite eine Feed- oder Text-Only-Ansicht z.B. für Screen-Reader (Stichwort Barrierefreiheit)
    ...
     
  4. #3 karloff, 29.01.2016
    karloff

    karloff Routinier

    Dabei seit:
    09.07.2007
    Beiträge:
    317
    Zustimmungen:
    0
    Ort:
    ~/
    Könnte etwas komplexer sein, je nachdem was du da genau möchtest, so copy&paste wirst du nicht so weit kommen denke ich mal.
    Je nachdem wie Komplex du das ganze aufziehen willst kannst du dir ja mechanize anschauen.
    Hier nen kleiner Overview: [1]
    Viel Erfolg dabei

    PS: Du musst nicht zwangsläufig perl nutzen zum scripten, python geht und ruby soweit ich weiß ebenfalls, ggf. mitlerweile sogar noch mehr optionen.

    [1] http://www.thomas-fahle.de/talks/WWW-Mechanize.pdf
     
Thema:

html seite runterladen und die Inhalte als .txt-Date speichern

Die Seite wird geladen...

html seite runterladen und die Inhalte als .txt-Date speichern - Ähnliche Themen

  1. Links aus HTML-Seite extrahieren

    Links aus HTML-Seite extrahieren: Hallo, ich möchte aus einer lokalen HTML-Datei bestimmte Links extrahieren. Die Vorgehensweise ist durch Aufgabenstellung vorgeschrieben: 1....
  2. HTML-Seite ohne Programmoberfläche anzeigen

    HTML-Seite ohne Programmoberfläche anzeigen: Guten Abend, ich möchte per Skript eine HTML-Seite anzeigen lassen, allerdings: - ohne Menu, Adressleiste, Tableiste oder ähnlichem - die...
  3. HTML Seite auslesen

    HTML Seite auslesen: Ich möchte gerne mit einem C++ Programm eine HTML Webseite laden bzw. speichern und dann einen bestimmten String darin suchen. Das Problem: Die...
  4. html seite neuladen mit gespeicherten Formularwerten

    html seite neuladen mit gespeicherten Formularwerten: Hallo zusammen, ich möchte mit perl die aktuelle Webseite neuladen allerdings sollen die geklickten checkboxen nach dem reload behalten werden....
  5. JTextPane && htmlseiten bearbeiten

    JTextPane && htmlseiten bearbeiten: ich möchte den pfad (URL)ein image in einer html seiten ändern, also ich möchte nach dem ich die html-seite auf der festplatte gespeichtert habe...