Textzusammenfassungen

Dieses Thema im Forum "Programmieren allgemein" wurde erstellt von opino, 08.12.2008.

  1. opino

    opino Tripel-As

    Dabei seit:
    27.10.2006
    Beiträge:
    179
    Zustimmungen:
    0
    Hallo Forum,

    kennt jemand ein Tool mit dem ich per Kommandozeile, java oder Php Textzusammenfassungen erstellen kann?
     
  2. Anzeige

    Schau dir mal diese Kategorie an. Dort findest du bestimmt etwas.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. #2 bytepool, 08.12.2008
    bytepool

    bytepool Code Monkey

    Dabei seit:
    12.07.2003
    Beiträge:
    791
    Zustimmungen:
    0
    Ort:
    /home/sweden/göteborg
    Hi,

    aber natuerlich:

    Code:
    $ ed meineZF.txt
    a
    <meine zusammenfassung hier>
    .
    w
    q
    
    :P

    Aber mal im Ernst, was willst du eigentlich wissen? Du muesstest schon etwas genauer werden wenn du ernste Antworten willst.

    mfg,
    bytepool
     
  4. opino

    opino Tripel-As

    Dabei seit:
    27.10.2006
    Beiträge:
    179
    Zustimmungen:
    0
    Ich möchte einen langen Text in das Programm reinschieben und einen kurzen Text rausbekommen. Wie das passiert ist egal ob nun auf der kommandozeile oder als Programm, Hauptsache automatisiert.

    Ich habe jetzt schon mal geguckt, es gibt einen Algorithmus der Text nach einer gewünschten Anzahl von Sätzen kürzen kann. Er zählt das vorkommen von Wörtern und gibt dann die Sätze aus die ein mittleres vorkommen dieser Wörter haben.

    Das was ich suche, soll aber einen neuen Text entstehen lassen. Es soll den Text quasi mit anderen Worten kürzer beschreiben.
     
  5. Gast1

    Gast1 Guest

    Und Du glaubst ernsthaft, daß dabei mit guter "Trefferquote" etwas Sinnvolles herauskommt?

    Sprache ist mehr als eine Aneinanderreihung von Worten, auch ein Wort, welches z.B. nur ein einziges mal vorkommt, kann für die Bedeutung des gesamten Textes absolut entscheidend sein und würde dann mit diesem "Häufigkeitsalgorithmus" durchfallen.

    Greetz,

    RM
     
  6. #5 nikster77, 08.12.2008
    nikster77

    nikster77 Routinier

    Dabei seit:
    15.03.2004
    Beiträge:
    307
    Zustimmungen:
    0
    Du suchst eine KI die dir z.B. einen Klappentext fuer einen Roman bastelt, meinst du das mit Zusammenfassung?
    Das soetwas frei verfuegbar ist denke ich nicht... vielleicht gibt es sowas aber wenn ist es teuer und liefert sicherlich, wie jede KI die nicht genau auf einen Anwendungsfall zugeschnitten ist, zu 99% Mist.
     
  7. #6 bytepool, 08.12.2008
    bytepool

    bytepool Code Monkey

    Dabei seit:
    12.07.2003
    Beiträge:
    791
    Zustimmungen:
    0
    Ort:
    /home/sweden/göteborg
    Hi,

    also einen Text beliebig zu kuerzen ist trivial. Aber da auch noch was sinnvolles bei rauszukriegen ist bei aktuellem Forschungsstand so gut wie unmoeglich. Du musst ja schliesslich wissen was du wegkuerzen kannst, damit das ganze noch Sinn ergibt, und dafuer brauchst du ein ordentliches Mass Intelligenz.

    Das faellt in den Bereich Text Mining und Kuenstliche Intelligenz.

    mfg,
    bytepool
     
  8. Gast1

    Gast1 Guest

    Ganz genau, und ehrlicherweise ist das auch gut so, alleine die Vorstellung einen Text einfach durch einen Algorithmus zu jagen und ihn wild zusammen zu kürzen, jagt mir einen kalten Schauer über den Rücken.

    Dabei kann eigentlich nur Blödsinn herauskommen, wenn der Text auch nur mehr als ein paar Zeilen enthält (und damit ein Zusammenfassen eh sinnlos wäre).

    Stellen wir uns vor, eine längere Passage wertet irgendetwas aus (weiß der Geier was) und die Worte "nicht" und "empfehlenswert" kommen darin genau einmal vor, namentlich bei der abschliessenden Bewertung im letzten Abschnitt.

    Nun fällt dieser Satz wegen zu geringer Häufigkeit weg und damit die wahrscheinlich wichtigste Aussage des Textes ebenfalls.

    Greetz,

    RM
     
  9. #8 slackfan, 09.12.2008
    slackfan

    slackfan König

    Dabei seit:
    18.04.2006
    Beiträge:
    809
    Zustimmungen:
    0
    Ort:
    Bonn
    Serts,

    das Zauberwort lautet Automatic Text Summarization. Füttere Google damit und du findest z.B. http://libots.sourceforge.net/
    Das beste wären in XML strukturierte Inhalte, weil man an deren Auszeichnung auch deren Relevanz festmachen könnte.
     
  10. opino

    opino Tripel-As

    Dabei seit:
    27.10.2006
    Beiträge:
    179
    Zustimmungen:
    0
    @slackfan

    danke das war genau das was ich gesucht habe.

    hier noch mal der Link für den naiven algorithmus:

    http://de.wikipedia.org/wiki/Extraktionsalgorithmus_nach_Luhn

    @Rain_Maker @bytepool
    nun mal nicht so negativ Jungs, denkt daran das vor 20 Jahren niemand gedacht hat das es bald mehr Handys als Einwohner in Deutschland gibt.
     
  11. #10 bytepool, 09.12.2008
    Zuletzt bearbeitet: 09.12.2008
    bytepool

    bytepool Code Monkey

    Dabei seit:
    12.07.2003
    Beiträge:
    791
    Zustimmungen:
    0
    Ort:
    /home/sweden/göteborg
    Hi,

    Das ist kein Negativismus, sondern eine informierte Meinung. Ich habe auch nicht von der Zukunft gesprochen, sondern von der aktuellen Situation. Das ist in der Tat ein Bereich an dem noch intensiv und viel geforscht wird, und in einigen Jahren koennte die Antwort auf deine Frage schon wieder anders ausfallen.

    Text Mining und Information Retrieval ist nicht mein Schwerpunkt, aber ich bleibe bei meiner Meinung, dass da aktuell noch nicht viel sinnvolles bei rauskommen kann. Es gibt mittlerweile unheimlich gute AI Techniken die sich statistischer Auswertung bedienen. Wir haben z.B. in einem Uni Projekt wo es um Stimmerkennung ging, mit Gaussian Mixture Models eine Erkennungsrate von 97% hinbekommen. Allerdings auch nur unter stark kontrollierten Bedingungen.
    Aber natuerliche Sprache ist nicht rein statistisch, und ist genau deswegen so wahnsinnig schwer zu handhaben. Wie Rain_Maker schon ganz richtig erkannt hat, ist in so einem Fall auch die Semantik extrem wichtig, und in dem Bereich ist die AI Forschung nach wie vor noch recht Schwach. Das geht dann wieder mehr in Richtung Logik.

    Wenn du das Ganze auf einen konkreten Anwendungsfall begrenzt, oder dich nur in einem bestimmten Fachgebiet bewegst, ich denke dann kannst du nach viel Arbeit und fleissigem rumspielen mit Parametern brauchbare Ergebnisse erzielen. Doch wenn es dir um die allgemeine Aufgabenstellung geht, dann ist das meiner Meinung nach immer noch utopisch.
    Ich koennte mir allerdings auch vorstellen dass die Laenge des Textes einen grossen Einfluss auf die Brauchbarkeit hat. Wie gesagt, beliebige Selektion ist trivial, aber brauchbare Ergebnisse fuer den allgemeinen Fall zu bekommen ist wieder eine voellig andere Sache.

    Unabhaengig davon finde ich es schade dass sie da auf der Seite nirgendwo beschreiben wie sie denn ihre Selektion vornehmen. Sie schreiben da einfach nur dass sie ein Programm entwickelt haben das eine Selektion vornimmt, aber nicht wie. Die Technik dahinter wuerde mich viel mehr interessieren. ;)

    mfg,
    bytepool
     
  12. Anzeige

    Vielleicht findest du HIER Antworten.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  13. opino

    opino Tripel-As

    Dabei seit:
    27.10.2006
    Beiträge:
    179
    Zustimmungen:
    0
    @bytepool

    ich habe ein paar seiten aus dem Link von Slackfan angeschaut und das waren alles nur diese Satzkürzunhsalgorithmen. Wie die das machen ist hier beschrieben:

    http://de.wikipedia.org/wiki/Extrakt...hmus_nach_Luhn
     
  14. #12 icephilipp, 28.12.2008
    icephilipp

    icephilipp Foren As

    Dabei seit:
    01.03.2008
    Beiträge:
    91
    Zustimmungen:
    0
    rm <dein alter text> funzt auch aba dann wird der text sehr kurz :P
     
Thema:

Textzusammenfassungen