Eigene WWW Suchmaschine

F

Freakazoid

Hallo,

ich bin gestern Abend auf die Idee gekommen, das Internet selbst nach Webseiten suchen zu lassen und wollt mal fragen, ob damit jemand schon Erfahrungen gesammelt hat!?!

Ich habe mir dafür mal "larbin" runtergeladen und installiert, läuft auch recht gut, nur habe ich noch ein paar Fragen dazu. (Habe es erstmal nach 9std. abgebrochen, weil ich mir dafür einen extra Rechner einrichten werde)

1. Wenn ich larbin starte, fängt er an das (komplette!!!) Web zu durchsuchen. Wie lange kann das dauern, mit einer normalen ADSL-Verbindung, bis er fertig ist? (Ich rechne mit knapp einer Woche)

2. Wenn larbin dann endlich mal fertig sein sollte, wie geht es dann weiter? Hab ich dann z.B. ein Webinterface, das ich aufrufen kann, um meine Suchanfragen loszuwerden? Oder was soll ich sonst mit den fifoxxxxxx Files machen?

3. Gibt es auch Seiten, die komplette Suchergebnisse zum Download anbieten, um selbst nicht das Internet durchsuchen zu müssen.

4. Was gibt es ausser larbin noch für Programme, die ich für mein Vorhaben benutzen kann? Welches ist gut, welches nicht?

5. Mit wieviel Festplattenspeicher müßte ich in etwa rechnen?

6. Legalität, sollte doch kein Problem sein, oder? Sonst würde Google z.B. sich ja auch strafbar machen.

7. Kennt jemand gute Seiten, die sich mit dem Thema beschäftigen?

gruß, Freakazoid
 
nur eine woche zum durchsuchen? und dann das ganze auch noch aktuell halten? und vorallem wozu dieser riesen aufwand? lol
 
Freakazoid schrieb:
1. Wenn ich larbin starte, fängt er an das (komplette!!!) Web zu durchsuchen. Wie lange kann das dauern, mit einer normalen ADSL-Verbindung, bis er fertig ist? (Ich rechne mit knapp einer Woche)

5. Mit wieviel Festplattenspeicher müßte ich in etwa rechnen?

google hat derzeit 4.285.199.774 seiten im index. diese seiten müssen abgefragt, durchsucht, gespeichert und indiziert werden. daraufhin werden die vorhanden links weiterverfolgt.
das aufkommende datenvolumen und die anforderungen an den server dürften, die möglichkeiten einer privat-person bei weitem übersteigen.

es ist sicherlich sehr interessant, dass im kleinen rahmen zu testen, aber an einen wirklichen gebrauch glaube ich nicht.

korrigiert mich, wenn ich falsch liege...
 
Riebl schrieb:
nur eine woche zum durchsuchen? und dann das ganze auch noch aktuell halten? und vorallem wozu dieser riesen aufwand? lol
Aktuell halten wollte ich das ganze nicht, wollte halt nur mal schauen, was man für Seiten findet, wenn man sich nicht auf Google und CO verläßt. Das ganze wär auch nur erstmal für mich ganz alleine. Wenn es 2 Wochen dauern würde hätte ich damit auch nicht wirklich ein Problem. Würde es dann, falls ich darin Vorteile sehen sollte, jedes halbe Jahr durchgeführen.

rhythm schrieb:
google hat derzeit 4.285.199.774 seiten im index. diese seiten müssen abgefragt, durchsucht, gespeichert und indiziert werden. daraufhin werden die vorhanden links weiterverfolgt.
das aufkommende datenvolumen und die anforderungen an den server dürften, die möglichkeiten einer privat-person bei weitem übersteigen.
Ja, ist schon verdammt viel, was Google da gesammelt hat. Interessant wäre dafür ein privater Cluster, aber daraus wird wohl nichts werden. Darum hatte ich ja auch Frage Nr.3 gestellt. Meine größte Angst hab ich davor, den Rechner dafür Wochen arbeiten zu lassen und anschliessend vielleicht nichts mit den fifoxxxxxx Files (von larbin) anfangen zu können. Vielleicht darf ich dann auch noch das geheule von meinem Provider anhören, aber machen will ich das immernoch. Werde mir morgen auch einen alten 200mhz-rechner dafür einrichten, der dann die ganze Zeit laufen kann.
 
Vielleicht könntest du ja ein Projekt daraus machen. Das ganze also als Verteiltes System auf mehreren Rechnern laufen lassen. Das sich also prinzipiell jeder dir anschließen kann und dir Rechnen- und Netzpower zur Verfügung stellt. Also so wie auch bei Seti@home oder ähnlichen Projekten. Vielleicht gibts ja auch sowas schon.
Aber gänzlich allein? Ich bezweifle das das viel bringt.
 
Freakazoid schrieb:
Vielleicht darf ich dann auch noch das geheule von meinem Provider anhören, aber machen will ich das immernoch. Werde mir morgen auch einen alten 200mhz-rechner dafür einrichten, der dann die ganze Zeit laufen kann.

du kannst zum mindest in etwa ausrechnen, wieviel transfervolumen auf dich zukommt. daraus kannst du dann auch errechnen, wieviel speicherplatz du benötigst und vor allem wie lange es dauert die seiten anzufordern...

gehen wir von den 4.285.199.774 seiten aus, bei denen du jeweils etwa 50 kb lädst. das wären 214259988700 kb daten. da du mit dsl etwa 90kb/s lädst würde das auf 2380666541,11 sekunden dauern. das sind 27554,01 tage in denen du 204334,24 gb daten laden würdest. 8o

liege ich mit meiner rechnung in etwa richtig, oder kann man das so nicht machen? :rolleyes:
 
rhythm schrieb:
gehen wir von den 4.285.199.774 seiten aus, bei denen du jeweils etwa 50 kb lädst. das wären 214259988700 kb daten. da du mit dsl etwa 90kb/s lädst würde das auf 2380666541,11 sekunden dauern. das sind 27554,01 tage in denen du 204334,24 gb daten laden würdest. 8o

liege ich mit meiner rechnung in etwa richtig, oder kann man das so nicht machen? :rolleyes:
Ich schätze nur das es bei weit weniger als 90kb/s liegen wird. Ansonsten richtig!!??!
 
ich denke auch, dass der versuch eine private suchmaschine für das internet aufzusetzen wenig sinn macht. was anderes ist das bei internen (man beachte den kleinen aber feinen unterschied) netzen - also im lan. in größeren firmen-lans läuft sowas tatsächlich gelegentlich, und stellt die firmen-eigenen seiten für mitarbeiter gebündelt zur verfügung.

ansonsten kann ich dir (sofern du von google weg willst) nur die metager empfehlen - meiner meinung nach die beste aller suchmaschinen.

mfg

bananenman
 
Zuletzt bearbeitet:
ich finde dir Idee eigentlich echt witzig...
mann müsste einen haufen dsl-büchsen clustern oder sowas...
 
Also....
ich glaub ich werd das wohl doch nicht durchziehen, wurde überzeugt, daß das doch ein wenig zu überdimensional für eine Privatperson ist. Ein Cluster wäre zwar noch eine interessante Sache, aber starten will solch eine Aktion auch nicht. DANKE für eure Antworten.
 
Freakazoid schrieb:
Also....
ich glaub ich werd das wohl doch nicht durchziehen, wurde überzeugt, daß das doch ein wenig zu überdimensional für eine Privatperson ist. Ein Cluster wäre zwar noch eine interessante Sache, aber starten will solch eine Aktion auch nicht. DANKE für eure Antworten.

auch wenn in meiner rechnung zahlen aufgetaucht sind, die wohl etwas "gigantisch" sind, finde ich die idee nicht schlecht. in kleinerem massstab ist das sicherlich ein interessantes projekt. :]
 
rhythm schrieb:
in kleinerem massstab ist das sicherlich ein interessantes projekt. :]
Auf jeden Fall ist das was ein internes Firmennetzwerk oder so, aber das ganze Internet abzusuchen ist doch ein wenig zu viel. Falls jemand mal ein Clusterproject starten will, bin ich gerne dabei.
 
Bin auch gerade dabei mir "The Google Linux Cluster.avi" aus'm Donkeynetz zu ziehen, obwohl ich vermute, das es nicht komplett verfügbar ist.
 
naja 4 milliarden seiten indiziert aber es gibt nur rund 800 mio pages im netz zumal man die gut komprimieren kann, brauchst ja nur den wortindex. aber gute 4 gigabyte is da minimum für den barrel.
das aufbauen des index dürfte aber recht ewig dauern, zumal die suchabfragen dein ram bei weitem sprengen dürften.
 
Locke schrieb:
naja 4 milliarden seiten indiziert aber es gibt nur rund 800 mio pages im netz zumal man die gut komprimieren kann, brauchst ja nur den wortindex. aber gute 4 gigabyte is da minimum für den barrel.

ich bezweifle, dass man den index auf 4 gig komprimieren kann, wenn ich mir den link durchlese, den ich gepostet habe... die angaben liegen doch etwas darueber...
ausserdem wuerde ein komprimieren des index doch nur dazu fuehren, dass sich die suchzeit erheblich erhoeht, oder sehe ich das falsch?
 

Ähnliche Themen

Server-Ausfall

Server's Power

Mal komplett was neues aufbauen ?

lokaler Mailserver

Suse/Unix neuling hat allgemeine fragen

Zurück
Oben