Yacy - Opensource Konkurenz für Google

M

MrFenix

Executor
Hi,
nach einigem Abi-Wegbleiben (erfolgreich) melde ich mich auch nochmal zu Wort. Wollte mal auf www.yacy-websuche.de aufmerksam machen: Ein Projekt, eine P2P Websuche zu erstellen, die auf Opensourcebasis irgendwann einmal dem Google Tyrannen Konkurrenz machen könnte. Habs bei der Boardsuche nicht finden können.. hoffe es wurde nicht schonmal gepostet.
Leibe Grüße,
MrFenix

PS.: Läuft übrigens perfekt ohne großes installieren; einfach tar.gz als User angemeldet ins Homeverzeichnis entpacken und # ./startYacy.sh - Erspart im Vergleich zu z.B. der Gentoo installation, die nur über Overlays läuft, Arbeit.
 
Zuletzt bearbeitet:
So wie die sich derzeit entwickeln, werden sie keine Konkurrenz für Google.

1. Man muß es installieren.
2. Zu langsame Entwicklung (Firefox-Toolbar nur für Firefox 1.5)
3. Unübersichtliche Downloadseite (überfordert den Otto-Normaluser).
4. Keine IE-Toolbar.
5. Total unübersichtliche Konfiguration, vollgepackt mit Fachbegriffen.
 
Zuletzt bearbeitet:
Yacy

Hallo


Ich habe jetzt mal testweise den link von @mike1 ausprobeirt und bin maßlos enttäuscht.


Ich hatte bei Text jweils Liutger, Tassillokelch und Arnegundis eingegeben und nichts, absolut keine URL bekommen.


mfg
schwedenmann
 
Hallo


Ich habe jetzt mal testweise den link von @mike1 ausprobeirt und bin maßlos enttäuscht.


Ich hatte bei Text jweils Liutger, Tassillokelch und Arnegundis eingegeben und nichts, absolut keine URL bekommen.


mfg
schwedenmann
das liegt wohl daran das das Projekt anscheinend noch nicht besonders alt und viel genutzt ist...
je mehr User umso mehr und besser die Ergebnisse...
 
Mike1: Nun, man muß theoretisch für eine normale Suche nichts installieren. Tut man es aber nicht, fehlt ein Knoten im P2P-Netzwerk, der Informationen zur Verfügung stellen könnte. Daher sollte man es installieren, sonst nutzt man das Projekt ja einfach nur aus. Außerdem ändert das nichts an der Tatsache, daß es diverse andere Punkte gibt, die der Verbreitung entgegen sprechen. Die oben genannten waren ja nur einige. Neben ihnen gibt es noch andere:

1. Schlecht zu merkende Domain.
2. Es müßten erstmal hunderttausende Leute dieses Tool nutzen, es im Senior-Modus zur Verfügung stellen und Seiten indizieren, die bisher noch nicht indiziert sind bevor es einigermaßen annehmbare Ergebnisse liefert.
3. Wer es hostet muß es regelmäßig pflegen. Läßt man die Default-Einstellungen und hat keine ellenlangen Blacklists drin, sind 60% der indizierten Seiten Porno-Seiten, die dann auch noch auf den "empfohlenen Seiten" auftauchen. Das erste, was dort bei mir stand war irgendeine Inzest-Seite und erst der Download einer Blacklist des Gentoo-Knotens verschaffte dort Abhilfe. Man kann den Knoten, die ihre Blacklists zum Download anbieten aber nicht "ansehen" was sie für Seiten unterbinden. Man hat dadurch außerdem kaum Kontrolle über die Indizes, die geführt werden und kann sich im Zweifel dadurch strafbar machen, da man (ohne sichtbaren Hinweis) Seiten verlinkt, die evtl. strafbare Inhalte haben.
4. Enormer Traffic-Verbrauch, wenn man die Default-Einstellungen läßt. Ein 2-stündiger Testlauf auf einem Rootie sorgte dafür, daß das Teil die kompletten 2 Stunden 3MB/s an Traffic gefressen hat.

Die Idee ist eigentlich ja ganz gut, aber sie hat einige Punkte, an denen es krankt. Der Otto-Normaluser wird sich das Teil nämlich nicht installieren und das ist nunmal der Großteil der Suchmaschinen-Nutzer.
 
@ Bitmuncher: Eigentlich sollte das alles en Grund und kein Hinderniss sein. Die Idee an sich ist gut. Und besonders wenn man sowas liest wie:
Eric Schmidt schrieb:
"Wir sind am Anfang in Bezug auf die Gesamtmenge der Informationen, die Google hat. Die Algorithmen werden besser und personalisierter sein. Das Ziel ist, dass Googleuser die Möglichkeit haben, Fragen wie "Was soll ich morgen unternehmen?" oder "Welchen Job soll ich wählen?" zu stellen."
Ich persönlich will bei so Sachen alles tun um von Google weg zu kommen. Deshalb "promote" ich das ganze auch hier. Je mehr es benutzen, desto besser wird es.
 
Zuletzt bearbeitet:
Sorry, aber 10GB Traffic pro Stunde (180MB pro Minute) sind mir einfach zuviel um sowas zu promoten, sonst hätte ich auch kein Problem damit einen Knoten im Senior-Modus mit schneller Anbindung zur Verfügung zu stellen. In der FAQ wird der verbrauchte Traffic auch totgeschwiegen, so daß man nicht weiß, ob dieses Problem nur bei der Erst-Indizierung auftritt, oder ob das immer soviel frißt.

Ja, sie mögen am Anfang sein, aber ohne tausende von Knoten werden sie irgendwann an die Grenzen der Kapazitäten stoßen und deswegen denke ich, daß sie Google in Hinsicht der Datenmengen, die zur Verfügung stehen, nicht einholen können.

Ich werde jedenfalls mal durchrechnen, was der Spaß pro Monat kosten würde und evtl. stelle ich einen Knoten mit 50GB Quota zur Verfügung. Wie gesagt, finde ich die Idee ansich nicht schlecht, glaube halt nur nicht wirklich, daß sich das durchsetzen kann.
 
Ich vermisse den Owner Match Support von IPTables. Damit könnte man den Traffic passend priorisieren und Maxima festlegen. Mal austüfteln was sich da so machen lässt.

Dazu kommt ja noch (für Privatleute) die einfache Proxy option: Man kann Yacy ja beim normalen Surfen als Proxy benutzen und damit indizieren lassen ohne extra Traffic zu vergeuden.
 
So, ich hab jetzt mal testweise einen Yacy aufgesetzt. Restriktet habe ich ihn auf 12 PPM. Nach nunmehr knapp einem Tag Laufzeit verbraucht das Ding 586MB Festplattenplatz und im Durchschnitt 80kb/s Traffic. Nach einem Monat werden also hochgerechnet ca. 16,5GB Speicher weg sein.

Und genau wegen solcher Sachen denke ich, daß sich dieses Tool nicht durchsetzen wird. Ich werde es noch eine Weile laufen lassen, aber wenn es mir zuviel wird, werde ich den Crawler definitiv abschalten. Solange ist die Suchseite unter www.subnetworx.de erreichbar.
 
So, ich hab das Ding jetzt ein paar Tage laufen lassen. In der Zwischenzeit wurden knapp 450.000 Seiten indiziert. Allerdings ist diese Applikation maximal für den privaten Einsatz brauchbar. Von einem Hosting auf einem Server würde ich abraten. Der RAM-Verbrauch wird enorm und irgendwann ist der Rechner nur noch am Swappen, wodurch die Last enorm in die Höhe steigt. Der Server ist daher dann nur noch mit Yacy beschäftigt und alles andere wird enorm verlangsamt. Sowas ist für einen dauerhaften Betrieb einfach nicht tragbar. Bei 450.000 Seiten sind 512MB RAM komplett voll und zusätzlich werden 100MB Swap belegt, Tendenz steigend.
 
Zuletzt bearbeitet:
bei Google zahlst du für 1/2 Mio Links 30000 Euro:
http://www.google.de/intl/de/enterprise/gsa/index.html
wenn du sie selber verwalten willst. Na gut du bekommst einen Server dazu, der ist aber nicht so viel wert. Bitte vergleiche diese fette Hardware mit deinem Server: da sind die von dir oben genannten Resourcen doch nicht so fett, oder?

Du hast inzwischen 1 Mio Links in deiner DB, also liefert dir dein Peer einen industriellen Wert von 60000 Euro -- kostenlos. Das gibts sonst nirgendswo. Dafür ist es doch ein nettes Spielzeug, oder?
 
Zurück
Oben