13.12.2018, 15:17 UTC+1

Sie sind nicht angemeldet.

  • Anmelden
  • Registrieren

Lieber Besucher, herzlich willkommen bei: Knoppix Forum | www.KnoppixForum.de. Falls dies Ihr erster Besuch auf dieser Seite ist, lesen Sie sich bitte die Hilfe durch. Dort wird Ihnen die Bedienung dieser Seite näher erläutert. Darüber hinaus sollten Sie sich registrieren, um alle Funktionen dieser Seite nutzen zu können. Benutzen Sie das Registrierungsformular, um sich zu registrieren oder informieren Sie sich ausführlich über den Registrierungsvorgang. Falls Sie sich bereits zu einem früheren Zeitpunkt registriert haben, können Sie sich hier anmelden.

wmk_2011

Anfänger

Beiträge: 11

Geschlecht: Männlich

1

30.09.2014, 14:44

OCRmyPDF verlangt tesseract-ocr_3.03.03-1

Hallo,

um einen Haufen PDF-Files die gescannte Rechnungen enthalten, durchsuchbar zu machen müsste ich das Skript OCRmyPDF anwenden. Dieses will anstatt des vorh. tesseract-ocr 3.02.01-6 die Version 3.03.03.
Nun habe ich rausgefunden dass Versionen anscheinend zu erzwingen sind:

sudo apt-get --reinstall install tesseract-ocr_3.02.01-6 tesseract-ocr_3.03.03-1

Hat nichts gebracht.
Mit synaptic habe ich es auch versucht und nach Tod des Packets wieder gewusst wieso ich so gern von einer Live-DVD arbeite.
Unmöglich?
Könnte mir jemand bitte die Vorgehensweise im Einzelfall aufdröseln?
Oder ist das der nicht unwahrscheinliche Fall, wo die Version nicht zu erzwingen ist?

Markus

ubuntuli

Fortgeschrittener

2

30.09.2014, 21:30

ich kenne noch von Windows AbbyFinereader. Der kann *.pdf in *.doc umwandeln.
Dazu müsstest Du aber VirtualBox, Windows 98 und Abby installieren.
von der Synaptic Paketverwaltung solltest Du die Finger weglassen wenn Du keine oder nicht viel Ahnung hast.
da kannst Du im Systen mehr kaputt machen als Du wolltest.

Dieser Beitrag wurde bereits 4 mal editiert, zuletzt von »ubuntuli« (30.09.2014, 21:56)


3

05.12.2014, 10:22

OCR - passende tesseract Version wäre nett

Hallo,

nur in der Hoffnung, dass Herr Knopper hier ab und zu mitliest.

Das wäre natürlich schön, wenn installierte Programme, andere Programme, auf die zurückgegriffen wird, vorfinden.

Gerade bei OCR hätte ich das gehofft, dachte dass es ja die Version für Blinde gibt, die bestimmt auch OCR-Dateien vorgelesen bekommen möchten,
dazu müßte ja erst einmal die Texterkennung funktionieren.

Nur als Anregung, damit sichtbar wird, dass noch ein Nutzer an so einem Thema interesse hat.

Speziell würde ich das gut finden, weil ich gerne eigene gescannte Dokumente durchsuchbar machen würde.
(Viele meiner Büroarbeiten schaffe ich ganz gut mit Knoppix im Griff zu haben, auch wenn es bestimmt nicht dazu gedacht ist. - bin nun einmal Minimalist - allerdings manches hätte man dann doch gerne ;) )

Gibt es eigentlich ein forum ein Thema oder so etwas, wo man Probleme zu installierten Programmen offiziell so meldet, dass Herr Knopper das mitbekommt?
Ob dieser wohl in einem Deutsch-sprachigem Forum liest?

Danke.

Melde mich frühestens in 4 Wochen. - wollte ich nur schon oft fragen.

Gruß

the_Idealist100

4

05.12.2014, 11:30

Zitat

Gibt es eigentlich ein forum ein Thema oder so etwas, wo man Probleme zu
installierten Programmen offiziell so meldet, dass Herr Knopper das
mitbekommt?

Ob dieser wohl in einem Deutsch-sprachigem Forum liest?
Soweit ich bisher mitbekommen habe, liest KK nicht in diesem Forum mit, besucht äußerst selten das englischsprachige Forum , schaut aber hin und wieder in der mailing-list vorbei.

Du weißt, das Knoppix ein Mix aus verschiedenen Versionen (stable, testing und Knoppix eigenen Scripts) und verschieden Desktops (LXDE, Gnome und KDE) ist und nur als Live-System gedacht ist. Wenn Du mehr als ein Live-System haben willst, mußt Du dich für eine Distribution entscheiden.
Gruß Werner * Eigene Rescue-CD
remaster Grml * remaster Knoppix

ubuntuli

Fortgeschrittener

5

05.12.2014, 16:19

Hallo the_idealist100
Mein Betriebssystem ist eigentlich Ubuntu. Bei Ubuntu arbeite ich mit OCRFeeder um PDF Dateien in Dokumente umzuwandeln. Ich weiß leider nicht ob es den OCRFeeder auch für Knoppix gibt.

progi

Fortgeschrittener

6

06.12.2014, 21:00

Hallo

@ubuntuli und
@wmk_2011

Vielleicht gibt es noch andere Lösungswege, die Euch helfen könnten :
In der Kommandozeile :
man pdftohtml
und
man pdftotext

MfG
progi

7

07.12.2014, 14:44

Hallo,

Zitat

um einen Haufen PDF-Files die gescannte Rechnungen enthalten, durchsuchbar zu machen müsste ich das Skript OCRmyPDF anwenden. Dieses will anstatt des vorh. tesseract-ocr 3.02.01-6 die Version 3.03.03.


Die aktuelle Version OCRmyPDF.sh (v2.2-stable) erfordert nur tesseract-ocr 3.02.01, Skriptauszug:

Quellcode

1
2
3
4
5
6
7
...
# ensure the right tesseract version is installed
# older versions are known to produce malformed hocr output and should not be used
# Even 3.02.01 fails in few cases (see issue #28). I decided to allow this version anyway because
# 3.02.02 is not yet available for some widespread linux distributions
reqtessversion="3.02.01"
...


Mit der Knoppix 7.4.2 DVD sollte es also funktionieren, dort ist tesseract-ocr 3.02.01-6 installiert.

MfG

Linux HardwareLinux Computer & PCs | Linux Notebooks & Laptops | Geek Shirts | Geek und Nerd Shirt Shop