html seite runterladen und die Inhalte als .txt-Date speichern

N

Noranora

Hallo!
Ich bin noch neu auf dem Gebiet, von daher denke ich sind meine Fragen für manche von euch recht simpel.
Mit den Standardbefehlen habe ich schon rumexperimentiert, jetzt stehe ich jedoch vo einem Problem.


Ich würde gerne Texte aus Internetseiten runterladen und als Textdateien auf meinem Rechner speichern.Speziell die einzelnen Artikel von dieser Seite http://www.nw.de/

Bisher bin ich soweit:

wget -r -l 2 http://www.nw.de/

Wenn ich dies mache, werden sämtliche Sachen von der Seite runtergeladen, und man kann die Texte nicht lesen, da sie halt nur im Editor mir allem was dazu gehört erscheinen. Könnt ihr mir helfen? Ich wäre wirklcih sehr dankbar!

LG
 
Möglichkeiten gibt's da viele
* Text-Browder "remote" verwenden und die Konsolen-Ausgabe in Text-Datei ausgeben - dann bekommst Du ggf., je nach Browser, auch Java-Script und iframes interpretiert
* wget / curl und ein Tool wie html2txt verwenden
* mit sed / awk / perl / php (bei den Hochsprachen mit evtl einer passenden Bibliothek) die html-Tags rauswerfen
* evtl. bietet die Seite eine Feed- oder Text-Only-Ansicht z.B. für Screen-Reader (Stichwort Barrierefreiheit)
...
 
Könnte etwas komplexer sein, je nachdem was du da genau möchtest, so copy&paste wirst du nicht so weit kommen denke ich mal.
Je nachdem wie Komplex du das ganze aufziehen willst kannst du dir ja mechanize anschauen.
Hier nen kleiner Overview: [1]
Viel Erfolg dabei

PS: Du musst nicht zwangsläufig perl nutzen zum scripten, python geht und ruby soweit ich weiß ebenfalls, ggf. mitlerweile sogar noch mehr optionen.

[1] http://www.thomas-fahle.de/talks/WWW-Mechanize.pdf
 

Ähnliche Themen

Vim GE-PACKT

Zurück
Oben