„Google für Dateien“

Diskutiere „Google für Dateien“ im Anwendungen Forum im Bereich Linux/Unix Allgemein; Hallo Leute, ich bin schon Seit mehreren tagen auf der Suche nach einer Suchmaschine für Dateien. Ja, ja, ich weiss was ihr jetzt denkt! Aber...

  1. #1 andreas84, 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
    Hallo Leute,

    ich bin schon Seit mehreren tagen auf der Suche nach einer Suchmaschine für Dateien. Ja, ja, ich weiss was ihr jetzt denkt! Aber ich brauche etwas besonderes:
    Ich habe ca. 1000 Textdateien die von einem Programm in regelmäßigen Abständen abgeändert werden, klingt komisch, ist aber so (dies ist nur als Beispiel gedacht)! Wenn ich jetzt z.B. nach „Hund“ in den Dateien suchen lasse mach ich das mit find ... Was seine zeit brauch.

    Ich möchte gerne einmal in der Nacht ein Suche über das Verzeichniss laufen lassen, das mir die Dateien Indexiert und z.B. eine search_index Tabelle in meine Datenbank anlegt. So das ich ganz bequem in meine DB nach schauen kann.

    Kennt jemand solch ein Programm?

    Gruß
    Andreas
     
  2. Anzeige

    Anzeige

    Wenn du mehr über Linux erfahren möchtest, dann solltest du dir mal folgende Shellkommandos anschauen.


    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. #2 Gott_in_schwarz, 16.02.2008
    Gott_in_schwarz

    Gott_in_schwarz ar0

    Dabei seit:
    22.04.2007
    Beiträge:
    546
    Zustimmungen:
    0
    Ort:
    Niedersachsen
    mit find? nicht mit grep? ich meine wo die dateien sind scheinst du ja zu wissen. hm, oder willst du einfach nur was "schnelleres" als find haben?
    locate arbeitet mit einer datenbank, die man sich per cronjob einfach nachts updaten lassen könnte. allerdings sucht man dann nur in den dateinamen, nicht in den dateiinhalten.

    also wenn du dateiinhalte nach stichwörtern durchsuchen willst, kann ich mir nichts schnelleres als einfach "grep -r suchwort /verzeichnis/der/dateien" vorstellen.
    weil damit deine "datenbank" umfassend wäre müsste sie ja quasi alle dateien und deren inhalte enthalten. womit die durchsuchung dieser datenbank dann doch genausolange dauert wie die durchsuchung der einzelnen dateien, oder?

    oder sollte dieses "google für dateien" irgendwie eine prioritätsverwaltung für informationen in den dateien mitbringen?
    wie würde das aussehen?
    hm, sry, dass ich dir nicht helfen kann. kommt bestimmt noch wer kompetentes reingeschneit.
     
  4. #3 Pascal42, 16.02.2008
    Pascal42

    Pascal42 Routinier

    Dabei seit:
    14.03.2007
    Beiträge:
    375
    Zustimmungen:
    0
    Ort:
    Vaihingen/Enz
    Ähm, Beagle?
     
  5. #4 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
  6. #5 supersucker, 16.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    Ähm, Leute?

    So wie ich den TE verstehe, will der doch einen Volltext-Index.

    Nichts von dem was hier bisher gepostet wurde, hat damit auch nur annähernd was zu tun. ( Oder kann Beagle das auch? IMHO nicht, lass mich aber gerne belehren)

    @TE

    Du könntest den Inhalt der Dateien entsprechend in Datenbanken verwursteln und darüber dann einen Volltext-Index legen.

    Ist halt die Frage, ob das von dir erwähnte Programm damit umgehen kann.

    Alternativ kannst du dir auch was eigenes stricken, z.B. mit Lucene.

    Wenn noch anderen was einfällt, nur raus damit.....:-)
     
  7. #6 hermann4, 16.02.2008
    hermann4

    hermann4 Firmware v.3.1

    Dabei seit:
    29.09.2006
    Beiträge:
    525
    Zustimmungen:
    0
    Ort:
    Hamburg
    Ginge nicht auch ein
    Code:
    cat /verzeichnis/der/Dateien/* | grep suchwort
    ?
     
  8. #7 Wolfgang, 16.02.2008
    Wolfgang

    Wolfgang Foren Gott

    Dabei seit:
    24.04.2005
    Beiträge:
    3.978
    Zustimmungen:
    0
    Ort:
    Erfurt
    Ob es dafür eine fertige Software gibt, weiß ich nicht.
    Allerdings würde ich da auch selbst etwas stricken.
    Perl mit einem Hash-tee über alle gefundenen Wörter mit den Dateinamen als Wert.
    Stellt sich aber die Frage wie groß das wird.
    Du kannst natürlich auch mit SQLlight arbeiten, was enorm schneller als der dicke Brocken mysql ist.

    Gruß Wolfgang
     
  9. #8 andreas84, 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
    Hallo Zusammen,
    supersucker, hat mich richtig verstanden. Ich brauche einen Volltext-Index oder so ähnlich.
    Leider kann sind die zu durchsuchenden Daten Dateien, und liegen nicht irgendwie in der DB, was auch nicht gewollt ist.
    Klar sind das nach der Indexierung eine Menge an Daten in der DB, aber dafür sind DBs da. Und ein späteres select auf "Hund" geht schneller als alle Dateien zu durchsuchen.

    Suchmaschinen arbeiten doch genauso, vielleicht lässt sich ja eine open source Suchmaschine für Webseiten anpassen...
     
  10. #9 supersucker, 16.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    1.

    Ist das cat da völlig unnötig.

    2.

    Liest du auch mal Threads mit bevor du antwortest?

    Zum zweiten Mal jetzt
    : Es geht um eine Volltext-Indizierung.

    @andreas

    ->

    Aber da musst du definitiv programmieren können, evtl. gibt es da auch noch was "user"-freundlicheres.
     
  11. #10 andreas84, 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
    supersucker, ich habe mir mal die Lucene Geschichte durchgelesen. Das Suchmaschinen-Framework hört sich nicht schlecht an. Damit werde ich mir mal ein kleines Testprogramm schreiben. - Danke
     
  12. #11 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
    Seit wann kann ht://dig keine Volltextindizierung mehr?
     
  13. #12 supersucker, 16.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    @Bashgob

    Als du dein Posting verfasst hast, hab ich synchron geschrieben.

    -> die von dir genannte Alternative hab ich also zu dem Zeitpunkt nicht gesehen.
     
  14. #13 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
    Achso, alles kloar ;)
     
  15. #14 andreas84, 16.02.2008
    Zuletzt bearbeitet: 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
  16. #15 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
    Irgendwo muß ht://dig ja sein Hirn ablegen. :winke: Kannst ja die Datenbank nach /dev/null schreiben lassen, dann dürften allerdings die Suchergebnisse dürftig ausfallen :erschlag:
     
Thema:

„Google für Dateien“

Die Seite wird geladen...

„Google für Dateien“ - Ähnliche Themen

  1. Reiser4 für Linux 5.1 und 5.2

    Reiser4 für Linux 5.1 und 5.2: Die Entwickler des Dateisystems Reiser4 haben jetzt Versionen für Linux 5.1 und 5.2 freigegeben. Sie ermöglichen es den Nutzern des Dateisystems,...
  2. Apache Software Foundation gibt Jahresbericht für das Fiskaljahr 2019 heraus

    Apache Software Foundation gibt Jahresbericht für das Fiskaljahr 2019 heraus: Die Apache Software Foundation (ASF) hat den Jahresbericht für das am 30. April zu Ende gegangene Fiskaljahr 2019 veröffentlicht. Weiterlesen...
  3. Artikel: Nextcloud Text: Ein Etherpad-Ersatz für alle?

    Artikel: Nextcloud Text: Ein Etherpad-Ersatz für alle?: Nextcloud Text ist ein noch junger Rich-Text-Editor für die Online-Zusammenarbeit, der dem proprietären Etherpad Konkurrenz machen könnte....
  4. Neuer Betreuer für Linux-Floppy-Treiber gefunden

    Neuer Betreuer für Linux-Floppy-Treiber gefunden: Kaum hatte Linus Torvalds den Floppy-Treiber im Linux-Kernel für verwaist erklärt, hat sich auch schon ein Entwickler bereit erklärt, in Zukunft...
  5. Purism startet Vorbestellung für Librem 5

    Purism startet Vorbestellung für Librem 5: Purism hat die Vorbestellung für das Librem 5 auf seiner Webseite freigegeben. Außerdem soll der Dienst »Librem One« künftig um einen Dienst für...
  1. Diese Seite verwendet Cookies um Inhalte zu personalisieren. Außerdem werden auch Cookies von Diensten Dritter gesetzt. Mit dem weiteren Aufenthalt akzeptierst du diesen Einsatz von Cookies.
    Information ausblenden