Durch Javascript generierte Webseiten parsen

Diskutiere Durch Javascript generierte Webseiten parsen im Shell-Skripte Forum im Bereich Programmieren unter Linux/Unix; Hallo zusammen, überlicherweise waren Webseiten immer ganz gut zu parsen, mittlerweile läd der Browser jedoch nur noch ein JavaScript von der...

  1. #1 Programmer78, 04.06.2018
    Programmer78

    Programmer78 Doppel-As

    Dabei seit:
    28.11.2007
    Beiträge:
    118
    Zustimmungen:
    2
    Hallo zusammen,

    überlicherweise waren Webseiten immer ganz gut zu parsen, mittlerweile läd der Browser jedoch nur noch ein JavaScript von der Webseite. Erst mit diesem werden die Daten aus der Datenbank des Webservers, zur Anzeige der Webseite im Browser, übertragen. Im Seitenquelltext stehen praktisch keine Daten, außer wo das js geladen werden kann. Das JS wird aber von wget natürlich nicht "umgewandelt", ist ja nur ein Downloader.

    Habt ihr da eine Lösung oder Idee? wget -p führt mich da auch nicht weiter. Mhhhhhh ....

    Gruß P.
     
  2. marce

    marce Kaiser

    Dabei seit:
    01.08.2007
    Beiträge:
    1.206
    Zustimmungen:
    15
    links, elinks, lynx - die meisten Konsolenbrowser unterstützen inzwischen JS.

    ... kommt aber natürlich auch drauf an, was Du konkret erreichen willst.
     
  3. #3 hellfire, 05.06.2018
    hellfire

    hellfire Doppel-As

    Dabei seit:
    25.05.2016
    Beiträge:
    106
    Zustimmungen:
    12
    Ich habe dazu mal phantomjs verwendet.
     
  4. #4 Programmer78, 08.06.2018
    Programmer78

    Programmer78 Doppel-As

    Dabei seit:
    28.11.2007
    Beiträge:
    118
    Zustimmungen:
    2
    Danke für die Rückmeldungen. Ich glaube ich habe mich falsch ausgedrückt ...

    Was ich mache ist, Details per Script von Webseiten für den Privatgebrauch zu holen: Hier zum Beispiel der aktuelle Sprit-Preis in Mönchengladbach
    Code:
    wget -qO - https://www.clever-tanken.de/tankstellen/stadt-moenchengladbach | egrep -m1 "highlight.*Mönchengladbach" | egrep -o "[0-2]\,[0-9]{3}"
    Beim Computerstart habe ich so alle nötigen Infos auf einem Blick und brauche nicht alle Seiten zu "besuchen". Hieß das nicht parsen? *hust Naja jedenfalls habe ich das vor aber einige Seiten, wie z.B. Videoportale d.tube bitchute und auch Börsenseiten gehen jetzt immer mehr dazu über, die Daten per JS zu generieren bzw aus einer Datenbank zu holen. Wie kann man da vorgehen?
     
  5. marce

    marce Kaiser

    Dabei seit:
    01.08.2007
    Beiträge:
    1.206
    Zustimmungen:
    15
    von gar nicht bis zu eben einem Konsolenbrowser (oder auch ein richtiger), der das für Dich rendert - das gerenderte HTML in ein Datei speichern und die dann parsen.

    Ob das geht hängt aber sehr davon ab, wie das auf der Seite integriert ist.

    Alternativ auf eine offene und saubere API hoffen und die ansprechen.
     
  6. #6 fresh$free, 10.06.2018
    fresh$free

    fresh$free Mitglied

    Dabei seit:
    03.10.2013
    Beiträge:
    29
    Zustimmungen:
    0
    CasparJS, baut auf PhantomJS auf und ist einfacher zu nutzen.
    Da oldschool mit grep oder irgendeiner scriptsprache rumzu machen ist viel zu umständlich und funktioniert meist doch nicht.
     
Thema:

Durch Javascript generierte Webseiten parsen

Die Seite wird geladen...

Durch Javascript generierte Webseiten parsen - Ähnliche Themen

  1. NFS durch Symlink auf lokales Dateisystem entlasten

    NFS durch Symlink auf lokales Dateisystem entlasten: Hallo zusammen, ich bin neu hier und auch nicht sicher ob ich mich hier im richtigen Forum befinde... Darum schon mal sorry wenn es eigentlich...
  2. Log File durchsuchen

    Log File durchsuchen: Hallo zusammen, ich würde gerne eine immer wiederkehrende Stelle im Logfile einer Cicso ASA herausschneiden (rot markiert). Dieses sieht momentan...
  3. PATH wird nicht richtig durchsucht

    PATH wird nicht richtig durchsucht: Hi zusammen, ich nutze das Forum schon seit längerem , allerdings hat mir bis jetzt immer die Suchfunktion weitergeholfen. Bei meinem aktuellen...
  4. Kunden-Skript ausgelöst durch Linux-Cluster Pacemaker

    Kunden-Skript ausgelöst durch Linux-Cluster Pacemaker: Hallo! Ich komme aus der AIX-Welt wo es im HACMP-Cluster die Möglichkeit der Ausführung eines Start- bzw. Stop-Skriptes im Zuge einer...
  5. Forscher analysieren Durchsatzprobleme im Linux-Scheduler

    Forscher analysieren Durchsatzprobleme im Linux-Scheduler: Eine Gruppe von Forschern hat Fälle identifiziert, in denen der Scheduler im Linux-Kernel falsche Entscheidungen trifft und die CPUs nicht so gut...
  1. Diese Seite verwendet Cookies um Inhalte zu personalisieren. Außerdem werden auch Cookies von Diensten Dritter gesetzt. Mit dem weiteren Aufenthalt akzeptierst du diesen Einsatz von Cookies.
    Information ausblenden