Software-Tipps

OCR, ICR


Typische Funktionen und Tipps zur Auswahl von OCR - ICR Software

OCR Erkennung

Die optische Texterkennung OCR (Optical Character Recognition) sorgt dafür, dass aus eingescannten Dokumenten der Text erkannt und erfasst werden kann. Die Qualität des Endergebnisses dieser Texterkennung und -erfassung hängt wesentlich von der Auflösung und Qualität der Bilddatei, dem Umfang und der Qualität der Muster-Datenbank und der Wörterbücher sowie der Fehlerkorrektur ab Außerdem ist selbstverständlich das Ausgangsdokument (Beleg, Rechnung etc.) entscheidend. Ist das Ausgangsdokument bereits verblasst und bietet wenig Kontrast wird das Ergebnis der Texterkennung fehlerhafter sein, als bei einem Ausgangsdokument mit hohem Kontrast.

ICR Erkennung

ICR (Intelligent Character Recognition) ist eine intelligente Texterkennung für handgeschriebene Texte, die komplexer ist als die OCR Erkennung für maschinelle erstellte Texte. Bei der ICR kommen umfangreiche Vergleichs- und Erkennungsprozesse zum Einsatz. So ist ICR Software in der Regel mit einem umfangreichen Lexikon und einer Grammatik ausgestattet, so dass anhand entsprechender "Nachschlagewerke" bei unklaren Zeichen eine Entscheidung getroffen wird.

Beachten Sie bitte auch die aktuelle Marktübersicht der Softwarelösungen und Erklärungen zum Thema OCR, OMR Text- und Markierungserkennung

Ergänzend zu den allgemeinen Kriterien zur Bewertung von Software in den vorangegangenen Abschnitten haben wir hier spezifische Kriterien für die Bewertung von OCR Software aufgeführt.

  • Fragen Sie nach wichtigen Basiskriterien, die wesentlich zur Qualität der jeweiligen Erkennungsergebnisse beitragen. Dazu gehören der Umfang und die Qualität der vorhandenen Muster-Datenbank, der Umfang und die Qualität der integrierten Wörterbücher bzw. Zeichen-Verzeichnisse und die Qualität der Algorithmen zur Fehlerkorrektur. Testen Sie Ihre individuellen Anforderungen im Zweifel immer mittels Ihrer eigenen Dokumente.
  • Klären Sie mit welcher Geschwindigkeit die Texterkennung durchgeführt wird. Oft stehen dazu Textprotokolle unterschiedlichster Textvorlagen zu Verfügung. Führen Sie ggf. Ihre eigenen Tests durch.
  • Fragen Sie nach der Genauigkeit für eine möglichst präzise Texterkennung. Oft werden Angaben von 80%-90% Genauigkeit gemacht, überprüfen Sie ggf. diese Angaben mit Ihren eigenen Dokumenten.
  • Beachten Sie die Unterstützung einer Batch-Steuerung, wenn Sie größere Mengen von beispielsweise PDF-Dokumenten einlesen bzw. erkennen wollen.
  • Achten Sie auf Funktionen zur genauen Seiten Segmentierung bzw. Zersetzung.
  • Möglichkeiten der Seiten- und Gliederungserkennung.
  • Fragen Sie nach Optionen zur Fehlerkorrektur auf Pixelebene und auf Wortebene und Funktionen zur manuellen Fehlerkorrektur.
  • Erfragen Sie, ob Intelligent Character Recognition (ICR) bzw. Methoden der Kontextanalyse unterstützt werden oder ob nur die TWAIN Schnittstelle (Technology Without An Interesting Name) verwendet wird.
  • Fragen Sie nach, ob die OCR ICR Lösung Optionen zur automatische Erzeugung von Dateinamen umfasst.
  • Gibt es Möglichkeiten zur automatisierten Dokumentenklassifizierung?
  • Möglichkeiten zur Visitenkartenerkennung.
  • Handschrifterkennung über erweiterte ICR Funktionen sowie Intelligent Word Recognition (IWR).
  • Bietet die OCR / ICR Software Möglichkeiten zur Erkennung von Markierungen und Auswahlfeldern?
  • Fragen Sie auch nach integrierten Funktionen bzw. Mechanismen zur Barcode-Erkennung (OBR).
  • Erkundigen Sie sich nach der Art der Softwaredokumentation. Ist diese ausführlich und umfangreich? Gibt es Online-Hilfen, Q&A1 ?
  • Erfragen Sie ob die Software Multifontfähig2 ist, wenn Sie Texte mit vielen verschiedenen Schriftarten erkennen wollen.
  • Fragen Sie nach Omnifont Fähigkeit3 , wenn Sie viele unterschiedliche Schriftarten verarbeiten müssen. Dies ist besonders wichtig, wenn evtl. nicht nur lateinische Schriftarten für Sie von Bedeutung sind.

1 vgl. auch 4 Softwaredokumentation
2 Wenn eine Schrifterkennung mit vielen Schriftarten klar kommt, wird von Multifontfähigkeit gesprochen.
3 Schriftartunabhängigkeit wird als Omnifont bezeichnet.
Abkürzungen:
OCR: Optical Character Recognition
ICR: Intelligent Character Recognition
OMR: Optical Mark Recognition
evtl.: eventuell
vgl.: vergleiche
Software zum Thema OCR:
DarkShield