„Google für Dateien“

Diskutiere „Google für Dateien“ im Anwendungen Forum im Bereich Linux/Unix Allgemein; Hallo Leute, ich bin schon Seit mehreren tagen auf der Suche nach einer Suchmaschine für Dateien. Ja, ja, ich weiss was ihr jetzt denkt! Aber...

  1. #1 andreas84, 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
    Hallo Leute,

    ich bin schon Seit mehreren tagen auf der Suche nach einer Suchmaschine für Dateien. Ja, ja, ich weiss was ihr jetzt denkt! Aber ich brauche etwas besonderes:
    Ich habe ca. 1000 Textdateien die von einem Programm in regelmäßigen Abständen abgeändert werden, klingt komisch, ist aber so (dies ist nur als Beispiel gedacht)! Wenn ich jetzt z.B. nach „Hund“ in den Dateien suchen lasse mach ich das mit find ... Was seine zeit brauch.

    Ich möchte gerne einmal in der Nacht ein Suche über das Verzeichniss laufen lassen, das mir die Dateien Indexiert und z.B. eine search_index Tabelle in meine Datenbank anlegt. So das ich ganz bequem in meine DB nach schauen kann.

    Kennt jemand solch ein Programm?

    Gruß
    Andreas
     
  2. Anzeige

    Anzeige

    Wenn du mehr über Linux erfahren möchtest, dann solltest du dir mal folgende Shellkommandos anschauen.


    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. #2 Gott_in_schwarz, 16.02.2008
    Gott_in_schwarz

    Gott_in_schwarz ar0

    Dabei seit:
    22.04.2007
    Beiträge:
    546
    Zustimmungen:
    0
    Ort:
    Niedersachsen
    mit find? nicht mit grep? ich meine wo die dateien sind scheinst du ja zu wissen. hm, oder willst du einfach nur was "schnelleres" als find haben?
    locate arbeitet mit einer datenbank, die man sich per cronjob einfach nachts updaten lassen könnte. allerdings sucht man dann nur in den dateinamen, nicht in den dateiinhalten.

    also wenn du dateiinhalte nach stichwörtern durchsuchen willst, kann ich mir nichts schnelleres als einfach "grep -r suchwort /verzeichnis/der/dateien" vorstellen.
    weil damit deine "datenbank" umfassend wäre müsste sie ja quasi alle dateien und deren inhalte enthalten. womit die durchsuchung dieser datenbank dann doch genausolange dauert wie die durchsuchung der einzelnen dateien, oder?

    oder sollte dieses "google für dateien" irgendwie eine prioritätsverwaltung für informationen in den dateien mitbringen?
    wie würde das aussehen?
    hm, sry, dass ich dir nicht helfen kann. kommt bestimmt noch wer kompetentes reingeschneit.
     
  4. #3 Pascal42, 16.02.2008
    Pascal42

    Pascal42 Routinier

    Dabei seit:
    14.03.2007
    Beiträge:
    375
    Zustimmungen:
    0
    Ort:
    Vaihingen/Enz
    Ähm, Beagle?
     
  5. #4 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
  6. #5 supersucker, 16.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    Ähm, Leute?

    So wie ich den TE verstehe, will der doch einen Volltext-Index.

    Nichts von dem was hier bisher gepostet wurde, hat damit auch nur annähernd was zu tun. ( Oder kann Beagle das auch? IMHO nicht, lass mich aber gerne belehren)

    @TE

    Du könntest den Inhalt der Dateien entsprechend in Datenbanken verwursteln und darüber dann einen Volltext-Index legen.

    Ist halt die Frage, ob das von dir erwähnte Programm damit umgehen kann.

    Alternativ kannst du dir auch was eigenes stricken, z.B. mit Lucene.

    Wenn noch anderen was einfällt, nur raus damit.....:-)
     
  7. #6 hermann4, 16.02.2008
    hermann4

    hermann4 Firmware v.3.1

    Dabei seit:
    29.09.2006
    Beiträge:
    525
    Zustimmungen:
    0
    Ort:
    Hamburg
    Ginge nicht auch ein
    Code:
    cat /verzeichnis/der/Dateien/* | grep suchwort
    ?
     
  8. #7 Wolfgang, 16.02.2008
    Wolfgang

    Wolfgang Foren Gott

    Dabei seit:
    24.04.2005
    Beiträge:
    3.978
    Zustimmungen:
    0
    Ort:
    Erfurt
    Ob es dafür eine fertige Software gibt, weiß ich nicht.
    Allerdings würde ich da auch selbst etwas stricken.
    Perl mit einem Hash-tee über alle gefundenen Wörter mit den Dateinamen als Wert.
    Stellt sich aber die Frage wie groß das wird.
    Du kannst natürlich auch mit SQLlight arbeiten, was enorm schneller als der dicke Brocken mysql ist.

    Gruß Wolfgang
     
  9. #8 andreas84, 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
    Hallo Zusammen,
    supersucker, hat mich richtig verstanden. Ich brauche einen Volltext-Index oder so ähnlich.
    Leider kann sind die zu durchsuchenden Daten Dateien, und liegen nicht irgendwie in der DB, was auch nicht gewollt ist.
    Klar sind das nach der Indexierung eine Menge an Daten in der DB, aber dafür sind DBs da. Und ein späteres select auf "Hund" geht schneller als alle Dateien zu durchsuchen.

    Suchmaschinen arbeiten doch genauso, vielleicht lässt sich ja eine open source Suchmaschine für Webseiten anpassen...
     
  10. #9 supersucker, 16.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    1.

    Ist das cat da völlig unnötig.

    2.

    Liest du auch mal Threads mit bevor du antwortest?

    Zum zweiten Mal jetzt
    : Es geht um eine Volltext-Indizierung.

    @andreas

    ->

    Aber da musst du definitiv programmieren können, evtl. gibt es da auch noch was "user"-freundlicheres.
     
  11. #10 andreas84, 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
    supersucker, ich habe mir mal die Lucene Geschichte durchgelesen. Das Suchmaschinen-Framework hört sich nicht schlecht an. Damit werde ich mir mal ein kleines Testprogramm schreiben. - Danke
     
  12. #11 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
    Seit wann kann ht://dig keine Volltextindizierung mehr?
     
  13. #12 supersucker, 16.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    @Bashgob

    Als du dein Posting verfasst hast, hab ich synchron geschrieben.

    -> die von dir genannte Alternative hab ich also zu dem Zeitpunkt nicht gesehen.
     
  14. #13 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
    Achso, alles kloar ;)
     
  15. #14 andreas84, 16.02.2008
    Zuletzt bearbeitet: 16.02.2008
    andreas84

    andreas84 Grünschnabel

    Dabei seit:
    02.12.2006
    Beiträge:
    9
    Zustimmungen:
    0
  16. #15 Bâshgob, 16.02.2008
    Bâshgob

    Bâshgob freies Radikal

    Dabei seit:
    29.07.2004
    Beiträge:
    2.334
    Zustimmungen:
    0
    Ort:
    Hannover
    Irgendwo muß ht://dig ja sein Hirn ablegen. :winke: Kannst ja die Datenbank nach /dev/null schreiben lassen, dann dürften allerdings die Suchergebnisse dürftig ausfallen :erschlag:
     
  17. caba_

    caba_ (caba{_,}|manuw)

    Dabei seit:
    07.08.2007
    Beiträge:
    334
    Zustimmungen:
    0
    Code:
    grep foo **/*
    k/a was daran zu langsam ist?
     
  18. #17 Pascal42, 17.02.2008
    Pascal42

    Pascal42 Routinier

    Dabei seit:
    14.03.2007
    Beiträge:
    375
    Zustimmungen:
    0
    Ort:
    Vaihingen/Enz
    Nochmal zu Beagle: Bei mir hat es gerade bei einem spontanen Test auch Begriffe in Dateien gefunden.
     
  19. dmaphy

    dmaphy Routinier

    Dabei seit:
    16.04.2004
    Beiträge:
    482
    Zustimmungen:
    0
    Ort:
    Hamburg
    Ich denke Beagle oder Pinot sollten da auch ihre Dienste tun... Aber ihr habt ja schon genug zusammengetragen :)
     
  20. #19 supersucker, 17.02.2008
    Zuletzt bearbeitet: 17.02.2008
    supersucker

    supersucker Foren Gott

    Dabei seit:
    21.02.2005
    Beiträge:
    3.873
    Zustimmungen:
    0
    und

    [ ] Ihr habt den Thread gelesen.

    Aber für euch sag ich es gerne auch zum dritten Mal: Es geht hier um eine Volltext-Indizierung und weder grep noch find haben damit auch nur das Geringste zu tun.
     
  21. Jabo

    Jabo Aufgabe ohne Minister

    Dabei seit:
    12.10.2006
    Beiträge:
    1.322
    Zustimmungen:
    0
    Ort:
    Hamburg
    ne aber der Vorschlag von Wolfgang ist ganz gut, das mit Perl zu machen. Man hat dann einen Hash und kann in dem Moment damit machen,was man will, sogar Textdateien erzeugen, die heißen wie das Suchwort und im Inhalt eine Liste der Fundstellen. Oder eine intdex.txt mit Feldtrennern, wo im ersten Feld das Wort kommt und dahinter auch getrennt die Fundstellen.

    Oder über das MySQL-Interface von Perl gleich beim finden in eine Datenbank pumpen. Die Textdateien-Idee fürt ja zu einem riesigen weiteren Textberg, der dann wieder durchsucht werden müßte.

    Mit Perl könnte man noch viel mehr machen, nämlich Wörter zählen. Oder Zeilenangabe der Fundstelle(n) in einzelnen Dateien. Dann hätte man einen Datenbank-Eintrag mit dem Wort, dahinter eine Datei, dahinter Fundstelle(n), dahinter nächste Datei...

    Das wären so Spinnereien, die mir spontan durch den Kopf gehen.

    An htdig hatte ich auch schon gedacht, kennt man z.B. von SuSE, wo damit das Hilfesystem indiziert wurde / wird (?). Das dauert auch, es zu rebuilden, aber das macht man ja selten und kann dann ganz gut suchen.
     
Thema:

„Google für Dateien“

Die Seite wird geladen...

„Google für Dateien“ - Ähnliche Themen

  1. End of Life für CoreOS Container Linux verkündet

    End of Life für CoreOS Container Linux verkündet: CoreOS hat offiziell das Ende der Unterstützung für CoreOS Container Linux bekannt gegeben. Der Nachfolger ist Fedora CoreOS. Weiterlesen...
  2. LUG: LinOs Fürstenfeldbruck

    LUG: LinOs Fürstenfeldbruck: Wir sind ein Stammtisch von Linux & OpenSource Freunden, die sich im Regelfall 1x im Monat zusammensetzen und austauschen. 2 weitere Donnerstage...
  3. »Crusader Kings III« im September auch für Linux

    »Crusader Kings III« im September auch für Linux: Mit »Crusader Kings III« hat Paradox Interactive bereits im Herbst des vergangenen Jahres einen Nachfolger des auch unter Linux verfügbaren...
  4. OpenBSD für PowerPC64 in Arbeit

    OpenBSD für PowerPC64 in Arbeit: Das OpenBSD-Projekt hat angekündigt, die Arbeit an einem Port des Systems für die PowerPC64-Architektur aufgenommen zu haben. Wann mit einem...
  5. Call for Proposals für Akademy 2020 gestartet

    Call for Proposals für Akademy 2020 gestartet: Der Aufruf zur Einreichung von Vorträgen für die KDE-Entwicklerkonferenz Akademy 2020 ist gestartet. Weiterlesen...
  1. Diese Seite verwendet Cookies um Inhalte zu personalisieren. Außerdem werden auch Cookies von Diensten Dritter gesetzt. Mit dem weiteren Aufenthalt akzeptierst du diesen Einsatz von Cookies.
    Information ausblenden