Proxy server Session ID wegschneiden

M

Muling

Doppel-As
Hallo,

Ich habe folgendes Problem: Ich betreibe einen kleine Suchmaschine für ein Intranet.

Das ganze funktioniert bei normalen URLs sehr gut, aber wenn eine session id übergeben wird meint der crawler bei jedem crawlen es sei eine neue URL und schreibt so doppelten Content in den Index.

Beispiel:

Ein Forum gibt dem Crawler eine session id, die URL lautet dann


EDIT: Da die Forensoftware die Links kürzt, das ganze ohne http://

seite.domain/viewtopic.php?t=4387&sid=92de355c247dc43d84e1d2562b10882a

Wenn er dann die Seite erneut besucht lautet die URL z.b.

seite.domain/viewtopic.php?t=4387&sid=c574bd0e3d9b3c9686f4d044b5165bb1

Die sid besteht aus 32 alphanumerischen Zeichen, von 0-9 und a-f.

Der meint dann es wäre ne völlig neue Seite und indiziert sie neu... Kann man da einen Proxy vorschalten der die Session IDs rausfiltert oder sowas ähnliches?

Der Crawler ist übrigens Yacy, und da gibts leider keine Möglichkeit Session IDs zu normalisieren, man kann nur die ganze Seite vom crawlen ausschließen :/

Vielen Dank, Muling
 
Zuletzt bearbeitet:

Ähnliche Themen

Squid nur zum maskieren der eigenen IP, nicht für Webserver auf port 80

Firewalls und Sicherheit im Internet

Zurück
Oben