13.11.2018, 06:34 UTC+1

Sie sind nicht angemeldet.

  • Anmelden
  • Registrieren

Lieber Besucher, herzlich willkommen bei: Knoppix Forum | www.KnoppixForum.de. Falls dies Ihr erster Besuch auf dieser Seite ist, lesen Sie sich bitte die Hilfe durch. Dort wird Ihnen die Bedienung dieser Seite näher erläutert. Darüber hinaus sollten Sie sich registrieren, um alle Funktionen dieser Seite nutzen zu können. Benutzen Sie das Registrierungsformular, um sich zu registrieren oder informieren Sie sich ausführlich über den Registrierungsvorgang. Falls Sie sich bereits zu einem früheren Zeitpunkt registriert haben, können Sie sich hier anmelden.

1

17.01.2013, 23:36

Scannen mit anschließender Texterkennung / OCR / gocr / tesseract / adriane-ocr

Hallo,

habe jetzt mühevoll einen Betrag geschrieben - hat etwas gedauert, beim Absenden fliege ich dann raus - als sei ich nicht mehr angemeldt.

Drum hier nur noch die Kurzfassung.

xsane erkennt meinen HP-Drucker - scannt aber die Texterkennung funktioniert nicht.
wundert mich auch nicht - im Menü Einstellungen - Konfiguration /Register Texterkennung\ steht im Feld OCR-Befehl "gocr"
Dieses programm ist aber weder in der Paketliste noch mit find zu finden. (7.0.3 und 7.0.5)

In https://de.wikipedia.org/wiki/GOCR
steht

Zitat


Bis zur Freigabe von Tesseract im Jahr 2005 (2006?) war es neben Ocrad die beste und gebräuchlichste Texterkennungs-Software aus den Bereichen der freien Software und Linux-Software.


Ocrad habe ich weder mit find noch in der Paketliste gefunden.

Deshalb habe ich mit find nach tesseract gesucht und bin auch fündig geworden.
Das waren aber nur Verzeichnisse, keine ausführbaren Dateien.

Zuletzt habe ich nun noch durch Zufall adriane-ocr gefunden und aus der Konsole gestartet.

Erhält man ein sehr kleine Fester - wenn man es vergrößert steht dort

Zitat


Bitte Vorlage auf den Scanner legen und EINGABETASTE drücken.


Lange habe ich auf der Scan-Taste des Scanners herumgedrückt, bis ich darauf kam,
dass der Button <OK> im Fenster gemeint war.
Dann lief alles ganz gut - nur kann man keinen zu erkennden Bereich auswählen, sondern die ganze Seite wird in Text umgewandelt.
Alles im Terminal - ohne großes grafisches Fenster.

Deshalb:

F r a g e:
kann man dieses Programm irgendwie an xSane anbinden?

Es gibt leider keine manpage zu adriane-ocr.

Danke für das mit darüber nachdenken.
;)

Gruß

the_idealist100

klaus2008

Meister

Beiträge: 2 697

Geschlecht: Männlich

2

18.01.2013, 00:00

Hallo!
Du hast gar nicht erwähnt, ob Du die CD oder DVD verwendest. Hier findest Du die Paketlisten für Knoppix 7.0.5: http://ftp.uni-kl.de/pub/linux/knoppix-d…kg-l-cd-705.txt und http://ftp.uni-kl.de/pub/linux/knoppix-d…g-l-dvd-705.txt

Auf der Suche nach "OCR" solltest Du cuneiform finden. Das Programm arbeitet in der Kommandozeile (Shell). Vielleicht kannst Du damit etwas anfangen. :)

Gruss
Klaus

3

20.01.2013, 23:17

Scannen mit anschließender Texterkennung / OCR / gocr / tesseract / adriane-ocr

Hallo Klaus,

danke für Deinen Hinweis.

Zuerst einmal - ich verwende die DVD-Version 7.05.

Habe zwar noch etwas abgewartet, ob noch andere Hinweise kommen, werde aber demnächst mal cuneiform ausprobieren.

cuneiForm
gemäß wiki
Intressant ist der folgende Kommentar - speziell der Gedanke CuneiForm mittels script in XSane einzubinden - das wäre ev. eine interessante Option für die nächste Knoppix DVD-Version.

Zitat


Mittels eines Skripts (xsane2cunei) kann CuneiForm auch in die Scan-Software XSane eingebunden werden. Aus der hOCR-Ausgabe von CuneiForm können mittels des Kommandozeilenprogrammes hocr2pdf[5] Bilder-PDF-Dateien maschinell durchsuchbar gemacht werden. Die Kommandozeilenwerkzeuge pdfsandwich[6] oder pdfocr[7] automatisieren diesen Prozess. Auch das Dokumentenmanagementsystem Archivista macht mittels CuneiForm und hocr2pdf PDFs maschinell durchsuchbar.

Näheres findet man auf http://exactcode.de/site/open_source/exactimage/hocr2pdf/
Dort finde ich besonders intressant:

Zitat


Creating a Searchable PDF from hOCR input

hocr2pdf: Is a command line front-end for the image processing library to create perfectly layouted, searchable PDF files from hOCR, annotated HTML, input obtained from an OCR system.
...


pdfsandwich
Ausserdem gibt es im Wiki zu cuneiForm einen Link zu pdfsandwich, ein Programm um pdf-Dateien, die nur Grafiken enthalten, Texte mittels OCR zu erkennen und für jede Seite im Hintergrund mit zu speichern, so dass eine durchsuchbare pdf-datei entsteht.
(http://tobias-elze.de/pdfsandwich/).
Allerdings stellt sich hier heraus, dass das Programm früher mittels cuneiform arbeitete - jetzt aber mit tesseract.

Zitat

Since version 0.0.5 pdfsandwich uses tesseract instead of cuneiform for OCR.


tesseract
weil dies aktuell von pdfsandwich verwendet wird, schaue ich auch nocheinmal hierzu ins wiki

Zitat

Seit Version 3.0 vom September 2010 können Ergebnisse direkt in das hOCR-Format ausgegeben werden und es wurde ein neues Modul zur Analyse der Seitengestaltung eingeführt.


Also verwendet sowohl CuneiForm als auch Tesseract das format hOCR

hocr-Format
wiki

Zitat

hOCR ist ein offener Standard, der ein Datenformat beschreibt, das der Repräsentation von Texterkennungsergebnissen dient. Mit diesem Format lassen sich zusätzlich zum Text dessen Layout, Erkennungsgenauigkeit, Formatierungen und andere Informationen erfassen. Das Format baut auf XHTML (oder auch HTML) und damit letztlich auf ASCII-Text auf. Metadaten werden nach der Dublin-Core-Konvention zur Einbettung von Metadaten in HTML in speziellen <meta>-Tags abgespeichert.

...

Die hocr-tools sind ein Paket von Werkzeugen zur Verarbeitung (Zusammenfügen, Aufteilen, Einfügen von Metadaten) und Analyse von hOCR-Daten. Mit hocr2pdf[1] existiert ein Kommandozeilenwerkzeug zur Erzeugung von maschinell durchsuchbaren Bilder-PDF-Dateien anhand von hOCR-Daten. Die Firefox-Erweiterung moz-hocr-edit[2] erlaubt die Korrektur von Erkennungsergebnissen im hOCR-Format.


Aktuell ist in Koppix DVD 7.05 gem. Paketliste enthalten

Quellcode

1
tesseract-ocr-deu                                           3.02-2                                tesseract-ocr language files for German


Dies scheint nicht das Programm tesseract zu sein sondern nur eine Spachdatei die zu dem Paket gehört.

Ich frage mich, ob adriane-ocr (mit dem ich immerhin schon eine tiff-Datei in Text umgewandelt habe)
vielleicht als Grundlage auf tesseract zurückgreift, da ja die Sprachdatei hiervon enthalten ist

Da muss ich noch einmal genau testen, ob es vielleicht doch eine Möglichkeit der besser formatierten Texterkennung gibt. - Vielleicht ja über das hOCR-Format.
Eigenartig, trotz dass in der Paketliste kein "hocr" zu finden ist, findet man mit

Quellcode

1
2
cd /
find -name hocr*

sehr wohl Dateien hocr-gtk.desktop ....

Schade, dass Knoppix einerseits scheinbar tolle Dinge enthält, andereseits das alles ziemlich versteckt zu finden ist.

Nochmals Danke.

Gruß

the_idealist100

PS:
aktuell versuche ich alte Unterlagen auszusortieren und denke daran, anhand der heute möglichen Festplattenkapazität einfach vieles zu scannen und digitalisiert zu speichern - da wäre natürlich eine Suchmöglichkeit genial.

Dieser Beitrag wurde bereits 4 mal editiert, zuletzt von »the_idealist100« (21.01.2013, 00:22)


klaus2008

Meister

Beiträge: 2 697

Geschlecht: Männlich

4

23.01.2013, 22:52

Hallo, the_idealist100!

Berichte doch bei Gelegenheit, welchen Fortschritt Du gemacht hast.

Als ich das letzte Mal eine OCR-Software unter Linux ausprobiert habe, war das Ergebnis wesentlch schlechter als mit Abby Fine Reader 5, welches zum Lieferumfang des benutzten Scanners gehört. Weil es aber für jenen Scanner sowieso keine Linux-Treiber gibt, war Windows XP eine notwendige Voraussetzung. Nach einigen schlechten Ergebnissen habe ich damals aufgegeben, die erfassten Bilddateien auf Linux zu übertragen und dort dann weiter zu verarbeiten. Eigentlich hatte ich beabsichtigt, OpenOffice zu verwenden, weil das einen Export des Textes in PDF-Dateien auf einfachem Wege ermöglicht. So war es dann doch MS Word plus den PDF-Creator.

Gruß
Klaus

Linux HardwareLinux Computer & PCs | Linux Notebooks & Laptops | Geek Shirts | Geek und Nerd Shirt Shop