Textzusammenfassungen

opino

opino

Tripel-As
Hallo Forum,

kennt jemand ein Tool mit dem ich per Kommandozeile, java oder Php Textzusammenfassungen erstellen kann?
 
Hi,

aber natuerlich:

Code:
$ ed meineZF.txt
a
<meine zusammenfassung hier>
.
w
q
:P

Aber mal im Ernst, was willst du eigentlich wissen? Du muesstest schon etwas genauer werden wenn du ernste Antworten willst.

mfg,
bytepool
 
Ich möchte einen langen Text in das Programm reinschieben und einen kurzen Text rausbekommen. Wie das passiert ist egal ob nun auf der kommandozeile oder als Programm, Hauptsache automatisiert.

Ich habe jetzt schon mal geguckt, es gibt einen Algorithmus der Text nach einer gewünschten Anzahl von Sätzen kürzen kann. Er zählt das vorkommen von Wörtern und gibt dann die Sätze aus die ein mittleres vorkommen dieser Wörter haben.

Das was ich suche, soll aber einen neuen Text entstehen lassen. Es soll den Text quasi mit anderen Worten kürzer beschreiben.
 
Und Du glaubst ernsthaft, daß dabei mit guter "Trefferquote" etwas Sinnvolles herauskommt?

Sprache ist mehr als eine Aneinanderreihung von Worten, auch ein Wort, welches z.B. nur ein einziges mal vorkommt, kann für die Bedeutung des gesamten Textes absolut entscheidend sein und würde dann mit diesem "Häufigkeitsalgorithmus" durchfallen.

Greetz,

RM
 
Du suchst eine KI die dir z.B. einen Klappentext fuer einen Roman bastelt, meinst du das mit Zusammenfassung?
Das soetwas frei verfuegbar ist denke ich nicht... vielleicht gibt es sowas aber wenn ist es teuer und liefert sicherlich, wie jede KI die nicht genau auf einen Anwendungsfall zugeschnitten ist, zu 99% Mist.
 
Hi,

also einen Text beliebig zu kuerzen ist trivial. Aber da auch noch was sinnvolles bei rauszukriegen ist bei aktuellem Forschungsstand so gut wie unmoeglich. Du musst ja schliesslich wissen was du wegkuerzen kannst, damit das ganze noch Sinn ergibt, und dafuer brauchst du ein ordentliches Mass Intelligenz.

Das faellt in den Bereich Text Mining und Kuenstliche Intelligenz.

mfg,
bytepool
 
Ganz genau, und ehrlicherweise ist das auch gut so, alleine die Vorstellung einen Text einfach durch einen Algorithmus zu jagen und ihn wild zusammen zu kürzen, jagt mir einen kalten Schauer über den Rücken.

Dabei kann eigentlich nur Blödsinn herauskommen, wenn der Text auch nur mehr als ein paar Zeilen enthält (und damit ein Zusammenfassen eh sinnlos wäre).

Stellen wir uns vor, eine längere Passage wertet irgendetwas aus (weiß der Geier was) und die Worte "nicht" und "empfehlenswert" kommen darin genau einmal vor, namentlich bei der abschliessenden Bewertung im letzten Abschnitt.

Nun fällt dieser Satz wegen zu geringer Häufigkeit weg und damit die wahrscheinlich wichtigste Aussage des Textes ebenfalls.

Greetz,

RM
 
Serts,

das Zauberwort lautet Automatic Text Summarization. Füttere Google damit und du findest z.B. http://libots.sourceforge.net/
Das beste wären in XML strukturierte Inhalte, weil man an deren Auszeichnung auch deren Relevanz festmachen könnte.
 
Hi,

@Rain_Maker @bytepool
nun mal nicht so negativ Jungs, denkt daran das vor 20 Jahren niemand gedacht hat das es bald mehr Handys als Einwohner in Deutschland gibt.

Das ist kein Negativismus, sondern eine informierte Meinung. Ich habe auch nicht von der Zukunft gesprochen, sondern von der aktuellen Situation. Das ist in der Tat ein Bereich an dem noch intensiv und viel geforscht wird, und in einigen Jahren koennte die Antwort auf deine Frage schon wieder anders ausfallen.

Text Mining und Information Retrieval ist nicht mein Schwerpunkt, aber ich bleibe bei meiner Meinung, dass da aktuell noch nicht viel sinnvolles bei rauskommen kann. Es gibt mittlerweile unheimlich gute AI Techniken die sich statistischer Auswertung bedienen. Wir haben z.B. in einem Uni Projekt wo es um Stimmerkennung ging, mit Gaussian Mixture Models eine Erkennungsrate von 97% hinbekommen. Allerdings auch nur unter stark kontrollierten Bedingungen.
Aber natuerliche Sprache ist nicht rein statistisch, und ist genau deswegen so wahnsinnig schwer zu handhaben. Wie Rain_Maker schon ganz richtig erkannt hat, ist in so einem Fall auch die Semantik extrem wichtig, und in dem Bereich ist die AI Forschung nach wie vor noch recht Schwach. Das geht dann wieder mehr in Richtung Logik.

Wenn du das Ganze auf einen konkreten Anwendungsfall begrenzt, oder dich nur in einem bestimmten Fachgebiet bewegst, ich denke dann kannst du nach viel Arbeit und fleissigem rumspielen mit Parametern brauchbare Ergebnisse erzielen. Doch wenn es dir um die allgemeine Aufgabenstellung geht, dann ist das meiner Meinung nach immer noch utopisch.
Ich koennte mir allerdings auch vorstellen dass die Laenge des Textes einen grossen Einfluss auf die Brauchbarkeit hat. Wie gesagt, beliebige Selektion ist trivial, aber brauchbare Ergebnisse fuer den allgemeinen Fall zu bekommen ist wieder eine voellig andere Sache.

Unabhaengig davon finde ich es schade dass sie da auf der Seite nirgendwo beschreiben wie sie denn ihre Selektion vornehmen. Sie schreiben da einfach nur dass sie ein Programm entwickelt haben das eine Selektion vornimmt, aber nicht wie. Die Technik dahinter wuerde mich viel mehr interessieren. ;)

mfg,
bytepool
 
Zuletzt bearbeitet:
rm <dein alter text> funzt auch aba dann wird der text sehr kurz :P
 

Ähnliche Themen

Probleme mit parallelen Zugriffen per SFTP

Kochplatten Seite

systemd service mit Bash Script und Subshell in einer tmux Umgebung

Samba Server funktioniert nach Installation von Nextcloud 26 nicht mehr

php Kismet

Zurück
Oben