„Google für Dateien“

Diskutiere „Google für Dateien“ im Anwendungen Forum im Bereich Linux/Unix Allgemein; Hallo Leute, ich bin schon Seit mehreren tagen auf der Suche nach einer Suchmaschine für Dateien. Ja, ja, ich weiss was ihr jetzt denkt! Aber...

  1. #1 andreas84, 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
    Hallo Leute,

    ich bin schon Seit mehreren tagen auf der Suche nach einer Suchmaschine für Dateien. Ja, ja, ich weiss was ihr jetzt denkt! Aber ich brauche etwas besonderes:
    Ich habe ca. 1000 Textdateien die von einem Programm in regelmäßigen Abständen abgeändert werden, klingt komisch, ist aber so (dies ist nur als Beispiel gedacht)! Wenn ich jetzt z.B. nach „Hund“ in den Dateien suchen lasse mach ich das mit find ... Was seine zeit brauch.

    Ich möchte gerne einmal in der Nacht ein Suche über das Verzeichniss laufen lassen, das mir die Dateien Indexiert und z.B. eine search_index Tabelle in meine Datenbank anlegt. So das ich ganz bequem in meine DB nach schauen kann.

    Kennt jemand solch ein Programm?

    Gruß
    Andreas
     
  2. Anzeige

    Anzeige

    Wenn du mehr über Linux erfahren möchtest, dann solltest du dir mal folgende Shellkommandos anschauen.


    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. #2 Gott_in_schwarz, 16.02.2008
    Gott_in_schwarz

    Gott_in_schwarz ar0

    Dabei seit:
    22.04.2007
    Beiträge:
    546
    Zustimmungen:
    0
    Ort:
    Niedersachsen
    mit find? nicht mit grep? ich meine wo die dateien sind scheinst du ja zu wissen. hm, oder willst du einfach nur was "schnelleres" als find haben?
    locate arbeitet mit einer datenbank, die man sich per cronjob einfach nachts updaten lassen könnte. allerdings sucht man dann nur in den dateinamen, nicht in den dateiinhalten.

    also wenn du dateiinhalte nach stichwörtern durchsuchen willst, kann ich mir nichts schnelleres als einfach "grep -r suchwort /verzeichnis/der/dateien" vorstellen.
    weil damit deine "datenbank" umfassend wäre müsste sie ja quasi alle dateien und deren inhalte enthalten. womit die durchsuchung dieser datenbank dann doch genausolange dauert wie die durchsuchung der einzelnen dateien, oder?

    oder sollte dieses "google für dateien" irgendwie eine prioritätsverwaltung für informationen in den dateien mitbringen?
    wie würde das aussehen?
    hm, sry, dass ich dir nicht helfen kann. kommt bestimmt noch wer kompetentes reingeschneit.
     
  4. #3 Pascal42, 16.02.2008
    Pascal42

    Pascal42 Routinier

    Dabei seit:
    14.03.2007
    Beiträge:
    375
    Zustimmungen:
    0
    Ort:
    Vaihingen/Enz
    Ähm, Beagle?
     
  5. #4 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
  6. #5 supersucker, 16.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    Ähm, Leute?

    So wie ich den TE verstehe, will der doch einen Volltext-Index.

    Nichts von dem was hier bisher gepostet wurde, hat damit auch nur annähernd was zu tun. ( Oder kann Beagle das auch? IMHO nicht, lass mich aber gerne belehren)

    @TE

    Du könntest den Inhalt der Dateien entsprechend in Datenbanken verwursteln und darüber dann einen Volltext-Index legen.

    Ist halt die Frage, ob das von dir erwähnte Programm damit umgehen kann.

    Alternativ kannst du dir auch was eigenes stricken, z.B. mit Lucene.

    Wenn noch anderen was einfällt, nur raus damit.....:-)
     
  7. #6 hermann4, 16.02.2008
    hermann4

    hermann4 Firmware v.3.1

    Dabei seit:
    29.09.2006
    Beiträge:
    525
    Zustimmungen:
    0
    Ort:
    Hamburg
    Ginge nicht auch ein
    Code:
    cat /verzeichnis/der/Dateien/* | grep suchwort
    ?
     
  8. #7 Wolfgang, 16.02.2008
    Wolfgang

    Wolfgang Foren Gott

    Dabei seit:
    24.04.2005
    Beiträge:
    3.978
    Zustimmungen:
    0
    Ort:
    Erfurt
    Ob es dafür eine fertige Software gibt, weiß ich nicht.
    Allerdings würde ich da auch selbst etwas stricken.
    Perl mit einem Hash-tee über alle gefundenen Wörter mit den Dateinamen als Wert.
    Stellt sich aber die Frage wie groß das wird.
    Du kannst natürlich auch mit SQLlight arbeiten, was enorm schneller als der dicke Brocken mysql ist.

    Gruß Wolfgang
     
  9. #8 andreas84, 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
    Hallo Zusammen,
    supersucker, hat mich richtig verstanden. Ich brauche einen Volltext-Index oder so ähnlich.
    Leider kann sind die zu durchsuchenden Daten Dateien, und liegen nicht irgendwie in der DB, was auch nicht gewollt ist.
    Klar sind das nach der Indexierung eine Menge an Daten in der DB, aber dafür sind DBs da. Und ein späteres select auf "Hund" geht schneller als alle Dateien zu durchsuchen.

    Suchmaschinen arbeiten doch genauso, vielleicht lässt sich ja eine open source Suchmaschine für Webseiten anpassen...
     
  10. #9 supersucker, 16.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    1.

    Ist das cat da völlig unnötig.

    2.

    Liest du auch mal Threads mit bevor du antwortest?

    Zum zweiten Mal jetzt
    : Es geht um eine Volltext-Indizierung.

    @andreas

    ->

    Aber da musst du definitiv programmieren können, evtl. gibt es da auch noch was "user"-freundlicheres.
     
  11. #10 andreas84, 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
    supersucker, ich habe mir mal die Lucene Geschichte durchgelesen. Das Suchmaschinen-Framework hört sich nicht schlecht an. Damit werde ich mir mal ein kleines Testprogramm schreiben. - Danke
     
  12. #11 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
    Seit wann kann ht://dig keine Volltextindizierung mehr?
     
  13. #12 supersucker, 16.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    @Bashgob

    Als du dein Posting verfasst hast, hab ich synchron geschrieben.

    -> die von dir genannte Alternative hab ich also zu dem Zeitpunkt nicht gesehen.
     
  14. #13 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
    Achso, alles kloar ;)
     
  15. #14 andreas84, 16.02.2008
    Zuletzt bearbeitet: 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
  16. #15 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
    Irgendwo muß ht://dig ja sein Hirn ablegen. :winke: Kannst ja die Datenbank nach /dev/null schreiben lassen, dann dürften allerdings die Suchergebnisse dürftig ausfallen :erschlag:
     
Thema:

„Google für Dateien“

Die Seite wird geladen...

„Google für Dateien“ - Ähnliche Themen

  1. Artikel: Pretix: Open-Source Alternative zu/für Event-Ticketdienstleister

    Artikel: Pretix: Open-Source Alternative zu/für Event-Ticketdienstleister: Pretix ist eine freie Anwendung, um Tickets für Veranstaltungen auszugeben und zu verwalten. Weiterlesen...
  2. Canonical startet Ubuntu Pro für Amazon Web Services

    Canonical startet Ubuntu Pro für Amazon Web Services: Canonical bündelt mit Ubuntu Pro für Amazon Web Services seine Amazon Machine Images mit der Unterstützung von Ubuntu Advantage. Weiterlesen...
  3. Tails veröffentlicht Ziele für 2020

    Tails veröffentlicht Ziele für 2020: Das Tails-Projekt hat seine für das Jahr 2020 definierten Ziele öffentlich gemacht. Dazu zählt neben einer informativeren Webseite auch die...
  4. GCC: Unterstützung für Motorola m68k bleibt

    GCC: Unterstützung für Motorola m68k bleibt: Die im Zuge der Überarbeitung von GCC angedrohte Entfernung der m68k-Architektur konnte abgewendet werden. Wie die Mitglieder des Projekts bekannt...
  5. Fedora diskutiert Werbung für proprietäre Software in »Gnome Software«

    Fedora diskutiert Werbung für proprietäre Software in »Gnome Software«: Ein Bugreport gegen »Gnome Software« führte zu einer Diskussion der Fedora Workstation Arbeitsgruppe über Werbung für proprietäre Software im...
  1. Diese Seite verwendet Cookies um Inhalte zu personalisieren. Außerdem werden auch Cookies von Diensten Dritter gesetzt. Mit dem weiteren Aufenthalt akzeptierst du diesen Einsatz von Cookies.
    Information ausblenden