Eigene WWW Suchmaschine

hmm, da dürftest du recht haben. zumal das ja dann wieder dekomprimiert werden muss
 
naja wenn die ramauslastung so gross wird dass speicherzugriffe länger dauern als das dekomprimieren eines zlib stroms (was google übrigens verwendet), dann is komprimieren sehr wohl sinnvoll, achja mal ein paar daten: bei 147GB an pages (ca. 24 mio pages) kamen 54 GB an rohdaten zusammen, meist brauchst du aber nur den wortindex und den zugehörigen pageindex, die sind lediglich 293mb sowie 3.9 GB gross. durch geschicktes mapping kannste bereits den grossteil des pageindexes in den ram spiegeln was wir zB im sw projekt machen. größtenteils mmappen wir die dateien damit es besonders schnell geht. es kommt immer auch darauf an wie man daten speichert. suchmaschinen sind gerade besonders speicheraufwändig, da zahlt sich kompression meist aus, wobei zlib noch relativ wenig performance fordert und bei der suche wirste kaum die suche in dem volltextindex machen sondern im lexikon/wortindex und alle pages rausfischen die dort enthalten sind und die pagerankliste für diese pages generieren (sortieren nach pagerank, mehr nicht).
 

Ähnliche Themen

Server-Ausfall

Server's Power

Mal komplett was neues aufbauen ?

lokaler Mailserver

Suse/Unix neuling hat allgemeine fragen

Zurück
Oben