Dokumente scannen automatisieren

Nemesis · 04.12.2010

Hi,
ich würde gerne das Scannen von Dokumenten so vereinfachen, dass nur noch auf ein Scannen-Button geklickt werden muss, und dann das fertige PDf zur Archivierung ausgespuckt wird.
Warum das ganze ? Damit auch Benutzer, die keine Ahnung vom Scannen und so haben ganz easy solche PDFs erzeugen können.

Hat jemand nen Tipp für solch ein unterfangen ?

Thx!

schwedenmann · 04.12.2010

Hallo

Wir wärer es denn mit scan2pdf

http://wiki.debianforum.de/Scan2Pdf

oder du bastelst dir selbst ein script mit scanimage und einem Programm (afaik z.B. imagmagick) zur Konvertierung nach pdf.

mfg
schwedenmann

Nemesis · 04.12.2010

ich bin gerade an nem script dran, mit scanadf, unpaper und mal schauen, was noch so kommt.
Aber hätte ja sein können, dass es da schon was fertiges gibt

schwedenmann · 04.12.2010

Hallo

Schau mal hier
http://jduck.net/2008/01/05/ocr-scanning/

mfg
sachwedenmann

Nemesis · 04.12.2010

hm, das mit dem scannen und der texterkennung hab ich nu:

Code:

#!/bin/bash

#Anzahl seiten
echo "Anzahl Seiten: ";
read AnzSeiten;

for i in $AnzSeiten; do
  echo Prepare page $i and press Enter
  read
  scanimage --device '[hier muss der scanner hin]' --format=pnm --mode 'color' --resolution 300 -t 0 -x 210 -y 295 >scan-$i.pnm
done

for i in $AnzSeiten; do
  echo preparing page $i
  unpaper scan-$i.pnm unpapered-$i.pnm
  convert unpapered-$i.pnm prepared-$i.tif && rm unpapered-$i.pnm
done

for i in $AnzSeiten; do
  echo doing OCR on page $i
  tesseract prepared-$i.tif tesseract-$i -l deu
done

aber ... ich hätte ja gerne, dass an dem pdf der text erkannt wird ... so bekomme ich ein textfile in dem der text steht, aber ich hätte ja gerne das pdf.

schwedenmann · 04.12.2010

Hallo

Dann änder das script doch so ab, das nur gescannt wird in pnm (in dem script) und dann z.B. per convert von pnm nach pdf gewandelt wird. Laß den ocr-Quatsch raus, funktioniert sowieso nur zu 95%. selbst bei den profession ellen Winprogrammen.
Du willst doch nur ein pdf, also scannen per scanimage oder einem andern cli , danach per convert nach pdf wandeln.

mfg
schwedenmann

Nemesis · 04.12.2010

hm, ok, ich hatte haltdie hoffnung, dass da noch was mit der ocr geht

edit:

so gehts:

Code:

#!/bin/bash

#Anzahl seiten
echo "Anzahl Seiten: ";
read AnzSeiten;

### Seiten Scannen ###
for ((i=1; $i<=$AnzSeiten; i++))
do
  echo Prepare page $i and press Enter
  read
  scanimage --device 'hpaio:/net/Photosmart_2600_series?ip=192.168.0.2' --format=pnm --mode 'color' --resolution 300 -t 0 -x 210 -y 295 >scan-$i.pnm
done

### Seiten in .tiff wandeln ###
echo "Creating TIFF images..."
ls scan*.pnm | while read p; do echo $p; q=`echo $p | sed 's/scan\(.*\)\.pnm/tiff\1.tiff/'`; echo $q; cat $p | pnmtotiff -lzw > $q; done

### Zu einer Seite zusammenfügen ###
tiffcp *.tiff all.tiff

### in pdf umwandeln ###
tiff2pdf -z -o Document.pdf all.tiff

das ergebnis ist etwas hell. die parameter brightness und contrast von scanimage funktionieren leider nicht.

was jetzt noch cool wäre ... wenn ich am scanner sagen könnte, wann die nächste seite eingelegt ist, und er dann scannt, so muss ich nicht immer wischen pc und scanner hin und her rennen.

Dokumente scannen automatisieren

Nemesis

N3RD

schwedenmann

Foren Gott

Nemesis

N3RD

schwedenmann

Foren Gott

Nemesis

N3RD

schwedenmann

Foren Gott

Nemesis

N3RD

Ähnliche Themen

Dokumente und Unterlagen in Datenbank sichern

Neueste Themen