Durch Javascript generierte Webseiten parsen

P

Programmer78

Doppel-As
Hallo zusammen,

überlicherweise waren Webseiten immer ganz gut zu parsen, mittlerweile läd der Browser jedoch nur noch ein JavaScript von der Webseite. Erst mit diesem werden die Daten aus der Datenbank des Webservers, zur Anzeige der Webseite im Browser, übertragen. Im Seitenquelltext stehen praktisch keine Daten, außer wo das js geladen werden kann. Das JS wird aber von wget natürlich nicht "umgewandelt", ist ja nur ein Downloader.

Habt ihr da eine Lösung oder Idee? wget -p führt mich da auch nicht weiter. Mhhhhhh ....

Gruß P.
 
links, elinks, lynx - die meisten Konsolenbrowser unterstützen inzwischen JS.

... kommt aber natürlich auch drauf an, was Du konkret erreichen willst.
 
Danke für die Rückmeldungen. Ich glaube ich habe mich falsch ausgedrückt ...

Was ich mache ist, Details per Script von Webseiten für den Privatgebrauch zu holen: Hier zum Beispiel der aktuelle Sprit-Preis in Mönchengladbach
Code:
wget -qO - https://www.clever-tanken.de/tankstellen/stadt-moenchengladbach | egrep -m1 "highlight.*Mönchengladbach" | egrep -o "[0-2]\,[0-9]{3}"

Beim Computerstart habe ich so alle nötigen Infos auf einem Blick und brauche nicht alle Seiten zu "besuchen". Hieß das nicht parsen? *hust Naja jedenfalls habe ich das vor aber einige Seiten, wie z.B. Videoportale d.tube bitchute und auch Börsenseiten gehen jetzt immer mehr dazu über, die Daten per JS zu generieren bzw aus einer Datenbank zu holen. Wie kann man da vorgehen?
 
von gar nicht bis zu eben einem Konsolenbrowser (oder auch ein richtiger), der das für Dich rendert - das gerenderte HTML in ein Datei speichern und die dann parsen.

Ob das geht hängt aber sehr davon ab, wie das auf der Seite integriert ist.

Alternativ auf eine offene und saubere API hoffen und die ansprechen.
 
CasparJS, baut auf PhantomJS auf und ist einfacher zu nutzen.
Da oldschool mit grep oder irgendeiner scriptsprache rumzu machen ist viel zu umständlich und funktioniert meist doch nicht.
 

Ähnliche Themen

IRC-Statsgenerierung+FTP-Upload via psig automatisieren

Server-Monitoring mit RRDTool

Zurück
Oben