Tesseract OCR useless?

Dieses Thema im Forum "Anwendungen" wurde erstellt von karloff, 19.05.2014.

  1. #1 karloff, 19.05.2014
    karloff

    karloff Routinier

    Dabei seit:
    09.07.2007
    Beiträge:
    317
    Zustimmungen:
    0
    Ort:
    ~/
    Moin,
    wollte gerade mal etwas mit OCR rumspielen,
    laut netz sollte man wohl wenn tesseract nutzen weil das so in etwa state of the art sein soll.
    Allerdings bin ich ehrlich gesagt schockiert, die Ergebnisse sind nicht besser als von vor 10 Jahren als ich mir das mal
    als "neue Tech" angeschaut habe.

    Allerdings habe ich zum Spass das ganze mal mit http://www.i2ocr.com/ ausprobiert, da konnte ich beim überfliegen keine Fehler finden?!
    Bei dem Tesseract was bei mir seinen Dienst verrichtet kann man mit viel mühe und fantasie erahnen was der Satz bedeuten soll.

    Das lässt zwei schlüsse zu, kauf software ist oss hier lichtjahre vorraus
    ich hab die config verkackt

    installiert ist tesseract-3.02

    ocropus habe ich ebenfalls ausprobiert, allerdings waren die ergebnisse hier im vergleich eher noch schlechter als bei tesseract.

    Hoffe dass das hier irgendwer liest der sich damit etwas auskennt und ggf. licht ins dunkle bringen kann.
    Viele infos über die config von tesseract findet man jedenfalls nicht
     
  2. Anzeige

    Schau dir mal diese Kategorie an. Dort findest du bestimmt etwas.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
  3. #2 Lord_x, 19.05.2014
    Zuletzt von einem Moderator bearbeitet: 19.05.2014
    Lord_x

    Lord_x Guest

  4. #3 karloff, 20.05.2014
    karloff

    karloff Routinier

    Dabei seit:
    09.07.2007
    Beiträge:
    317
    Zustimmungen:
    0
    Ort:
    ~/
    Hey Lord_x
    Cuneiform wollte ich mir anschauen allerdings wurde mir davon abgeraten:
    Code:
    # /mnt/autofs/portagetree/profiles/package.mask:
    # Richard Freeman <rich0@gentoo.org> (24 Mar 2013)
    # Contains known buffer overflows.  Package generally works
    # but should not be fed untrusted input (eg from strangers).
    # Masked to ensure users are aware before they install.
    =app-text/cuneiform-1.1.0-r1
    
    Daher habe ich davon abstand genommen das weiter auszuprobieren, da ich ich untrusted input geplant habe (zumindest wenn ich es irgendwie vernünftig zum laufen kriege)

    Ich hab als Beispiel mal mein Post hier genommen:
    unixboard.jpg

    Wenn ich den wie schon erwähnt den bei http://www.i2ocr.com/ hochlade:
    Code:
    Tesseract OCR useless?
    
    Moin.
    
    wollte gerade mal etwas mit OCR rumspielen,
    
    laut netz sollte man wohl wenn tesseract nutzen weil das so in etwa state of the art sein soll.
    Allerdings bin ich ehrlich gesagt schockiert, die Ergebnisse sind nicht besser als von vor 10Jahren
    als ich mir das mal
    
    als "neue Tech" angeschaut habe.
    
    Allerdings habe ich zum Spass das ganze mal mit [url]http://www.i2ocr.com/[/url] ausprobiert, da konnte ich
    beim überfliegen keine Fehler finden?!
    
    Bei dem Tesseract was bei mir seinen Dienst verrichtet kann man mit viel mühe und fantasie
    erahnen was der Satz bedeuten soll.
    
    Das lässt zwei schlüsse zu, kauf software ist oss hier lichtjahre vorraus
    ich hab die config verkackt
    
    installiert ist tesseract-3.02
    
    ocropus habe ich ebenfalls ausprobiert, allerdings waren die ergebnisse hier im vergleich eher
    noch schlechter als bei tesseract.
    
    Hoffe dass das hier irgendwer liest der sich damit etwas auskennt und ggf. licht ins dunkle bringen
    
    kann.
    Viele infos über die config von tesseract findet man jedenfalls nicht
    
    #export EDITOR="S(which rm)"
    
    Wirklich gut, so wie ich es auch gerne hätte.

    Wenn ich Tesseract das ganze zum Früstück gebe:
    tesseract /tmp/unixboard.jpg /tmp/test
    Code:
    Tesseracl OCR useless?
    
    Mam,
    wuHte gerade msw etwas mwt oca mmsp\e\en,
    
    ‘ant netz same man wL7M wenn tesseract nutzen wed ass sa m etwa state ufthe an sewn sL7H
    AHerdmgs hm mh ehrhch gesagt schuckwert, dwe Ergebmsse smd mcht besser sws \/an var mjahren
    sws wch mwr ass msw
    
    sws “neue Tech“ angeschaut babe
    
    AHerdmgs habe wch zum Spas: ass gsnze msw mu Http //WWW \2ocrcum/ saspmmen, as kunnte mh
    bewm abermegen keme FeMerfinden7‘
    
    Eew dem Tesseract was hex mwr semen Dwenst vemchtet kann man mu mew muhe Lmd fantaswe
    erahnen was der Sat: bedeuten sL7H
    
    Das Vssst zwew semusse zu, kauf software wst ass mer hchqahre vurraus
    mh hab dwe cunfig verkackt
    
    mstsmen wst tesseract—3 a2
    [...]
    
    Wenn ich ihm dazu noch sage das es sich beim input um Deutsch handelt ist alles zu spät ...

    tesseract /tmp/unixboard.jpg /tmp/test -l deu

    Code:
    Teaaeracı ocR uaeıeaa?
    
    Mam,
    Wguıa gafaga max aıwaa m« om mmagawag,
    
    wagı „an agma mag Wgm Wagg ıaaaaagı „mag wa« gaa ag m ama aıaıa anna an aaw agu
    Auafgwga mg m» awngw gaaagı aghggman, ma Efgaıamaaa awg „am ıaaaaa awa „gg var ıulawag
    awa m» w gaa max
    
    awa waaa mw aggaagwagı haha
    
    Auafgwga »aba m» um agaaa gaa gagza max m« mg „WW Qgmgm/ agagfgıaan, ga kgma m»
    nam „ıaaffmagag kawa Famaffiggaw
    [...]
    
    Weiß zufällig jemand was die bei http://www.i2ocr.com/ im Hintergrund werkelt, habs leider nicht herausgefunden. ?

    Problem am Ende soll userinput interpretiert werden der mit ner Handycam fotografiert wurde, das werde ich ggf. bei i2ocr noch mal testen in wie weit das praktikabel ist,
    aber momentanen erscheint das allerdings aussichtslos, wenn ich nicht tesseract oder ein anderen kandidaten dem man mit untrusted input geben kann zum laufen kriege.
     
  5. Lord_x

    Lord_x Guest

    Das hier ist mein Ergebnis :)

    Code:
    Tesseract OCR useless?
    
    Moin,
    
    wollte gerade mal etwas mit OCR rumspielen.
    
    laut netz sollte man wohl wenn tesseract nutzen weil das so in etwa state cfthe art sein soll.
    Allerdings bin ich ehrlich gesagt schockiert, die Ergebnisse sind nicht besser als von vor lojahren
    als ich mir das mal
    
    als "neue Tech" angeschaut habe.
    
    Allerdings habe ich zum Spass das ganze mal mit http://vnNw.i2ocr.com/ ausprobiert, da konnte ich
    beim überfliegen keine Fehler finden?!
    
    Bei dem Tesseract was bei mir seinen Dienst verrichtet kann man mit viel mühe und fantasie
    erahnen was der Satz bedeuten soll.
    
    Das lässt zwei schlüsse zu, kauf software ist oss hier lichtjahre vorraus
    ich hab die config verkackt
    
    installiert ist tesseract-3‚02
    
    ocropus habe ich ebenfalls ausprobiert, allerdings waren die ergebnisse hier Im Vergleich eher
    noch schlechter als bei tesseract.
    
    Hoffe dass das hier irgendwer liest der sich damit etwas auskennt und ggf. licht ins dunkle bringen
    kann.
    Viele infos über die config von tesseract findet man jedenfalls nicht
    
    Und im Anhang das "gescannte" Bild. Die Auflösung ist sehr wichtig!

    Gruss
     

    Anhänge:

  6. #5 karloff, 20.05.2014
    karloff

    karloff Routinier

    Dabei seit:
    09.07.2007
    Beiträge:
    317
    Zustimmungen:
    0
    Ort:
    ~/
    Stimmt habs auch gerade mal durchgejagt das ist ungleich besser
    dabei hatte ich auch schon mal versucht etwas mit den Testbildern herzumzuspielen, allerdings eher Sachen wie hoher Kontrast.

    Magst du mir sagen worauf es genau beim Bild ankommt, bzw. worauf man achten sollte damit solche Ergebnisse eher die Regel werden.

    Nebenbei schaue ich mir gerade an wie man Wörterbücher erstellt, etwas na ja ... nutzerfreundlich ist anders :)
    Allerdings habe ich am Ende wohl nur 100-200 Wörter die ich brauche da sollte man das ggf. mit Wörterbüchern noch weiter verbessern können.
     
  7. Lord_x

    Lord_x Guest

    Naja viel kann ich dir nicht sagen ausser eben der Auflösung. Ruhig auch mal 8MP (3840x2160) Kontrast etc. hilft aber auch. Bedenke eine Handy-Kamera macht sehr grosse Fotos fast schon 4k. Bis jetzt hatte ich eigentlich immer gute Ergebnisse/Erfahrungen damit gemacht.

    Gruss
     
  8. Anzeige

    Vielleicht findest du HIER Antworten.
    Registrieren bzw. einloggen, um diese und auch andere Anzeigen zu deaktivieren
Thema: Tesseract OCR useless?
Besucher kamen mit folgenden Suchen
  1. tesseract ocr verbessern

Die Seite wird geladen...

Tesseract OCR useless? - Ähnliche Themen

  1. Uselessd: Erste Abspaltung von Systemd

    Uselessd: Erste Abspaltung von Systemd: Eine erste Abspaltung von Systemd mit dem doppeldeutigen Namen »uselessd« entstand als Ein-Mann-Projekt aus der Webseite »Boycott Systemd« heraus,...
  2. Perl : Useless use of private variable in void context

    Perl : Useless use of private variable in void context: Hi ich habe folgende Warnung und komme der sache nicht ganz auf die spur Useless use of private variable in void context at Line 40 das...