ABBYY FineReader Engine
Das umfassendste OCR SDK für Softwareentwickler
Erkennung
Ein komplettes Set von Erkennungstechnologien
Für die eigentliche Texterkennung bietet ABBYY FineReader Engine umfassende Erkennungstechnologien. Dazu gehört die Erkennung von Maschinenschrift (OCR), Handschrift (ICR) und Barcodes (OBR). Als Marktführer bietet ABBYY die größte Auswahl an OCR-Sprachen, die individuell kombiniert werden können. Im Folgenden finden Sie eine Liste der verfügbaren Technologien und Verarbeitungsoptionen.
Optical Character Recognition (OCR)
Die OCR-Technologie ist verfügbar für über 200 Sprachen:
-
Europäische Sprachen (lateinische, kyrillische, armenische, griechische Zeichensätze)
-
Nicht-europäische Sprachen: Chinesisch, Japanisch, Koreanisch, Arabisch, Farsi, Thai, Vietnamesisch, Hebräisch, Burmesisch (Vorschau)
-
FineReader XIX – für alte Dokumente, Bücher und Zeitungen, die von 1600 bis 1937 auf Englisch, Französisch, Deutsch, Italienisch und Spanisch in alten Schriftarten wie Fraktur, Schwabacher und Gothic publiziert wurden
-
Erkennung von OCR-A, OCR-B, MICR (E13B) und CMC7-Fonts und Dokumenten, die mit Nadeldruckern gedruckt oder auf Schreibmaschinen geschrieben wurden
Intelligent Character Recognition (ICR)
Die ICR -Technologie ist verfügbar für über 120 Sprachen:
-
Europäische und nicht-europäische Sprachen
-
22 regionale Handschriftenstile
-
Erkennung von Handschrift in Feldern und Rahmen
-
ICR für indische Zahlen, die in arabischen Staaten verwendet werden
Erkennung von handschriftlichen Informationen in verschiedenen Sprachen (mehrsprachige ICR) möglich.
Optical Barcode Recognition (OBR)
- 1D und 2D Barcodes
- Schnelle Extrahierung von Barcodes. Diese Funktion ermöglicht die automatisierte Identifikation und Erkennung von Barcodes auf einem Dokument, unabhängig wo es sich auf der Seite befindet.
Genauer Erkennungsmodus
Der genaueste Modus, um die höchsten Erkennungsergebnisse zu erzielen, z.B. wenn Sie den gewonnenen Inhalt der Dokumente weiterverwenden möchten.
Fast-Mode-Erkennung
Volltext- und Field-Level-Erkennung
Allgemein sind zwei Arten der Erkennung möglich: Volltext- und Felderkennung. Die Volltexterkennung wird für die Konvertierung von Dokumenten verwendet und arbeitet normalerweise mit der OCR-Technologie. Die Felderkennung wird für die Extraktion bestimmter Daten eingesetzt und arbeitet mit OCR, ICR und anderen Technologien.
Die folgende Tabelle zeigt die Unterschiede:
Specification | Full text recognition | Field-level recognition |
---|---|---|
Used for: | Document conversion, books archiving | Data capture / Data extraction |
Document analysis: | General document analysis, document analysis for invoices, document analysis for full-text indexing | Manual blocks specification for field-level recognition |
Recognition technologies: | OCR with up to 99% accuracy | OCR, ICR, OMR, Barcodes recognition with predefined data types and values range. 99.99% accurate |
Verification: | Recommended (for content reuse) | Obligatory (as accuracy is a critical issue in most cases) |
Synthesis: | Used for document reconstruction | Not used |
Export format: | Document files (RTF, DOC, PDF, etc.) | Export to XML file or database |
Volltext-Erkennung
Volltext-Erkennung ist die Grunderkennungsart für unterschiedliche Aufgaben, z.B.:
- Konvertierung von Dokumenten und Büchern für Archivierung
- Dokumentenkonvertierung zur Weiterverwendung des Inhalts
- Grundsätzliche Extrahierung von Text zur Identifikation von Feldern und Dokumentenklassifizierung
All diese Aufgaben machen die Erkennung (OCR) des gesamten Textes notwendig. Der erkannte Text wird als reiner Text oder als ein Dokument in einem definierten Dateiformat ausgegeben.
Field-Level-Erkennung
Zur Unterstützung wichtiger Geschäftsprozesse wie der Verarbeitung von Formularen, Stichwortklassifizierung, Machine Vision oder Robotic Process Automation extrahiert ABBYY FineReader Engine Text aus Feldern oder Bereichen. Zu den wichtigsten Funktionen zählen die mehrsprachige OCR- und ICR-, OMR- und Barcode-Erkennung sowie spezifische Funktionen wie:
- Datenextraktion aus Feldern mit unterschiedlichen Begrenzungen und Rahmen
- Definition des Feldinhalts durch Festlegen von Zeichensätzen, Wörterbüchern, regulären Ausdrücken, Arten der Segmentierung, Handschriftstilen, etc.
- Erkennung von Zeichenabständen innerhalb eines Feldes
- Intelligente Verarbeitung von Blöcken mit unterbrechenden Teilen und Linien
- "Säubern" von Textblöcken, mit der Möglichkeit, die Größe der weißen oder schwarzen "Verschmutzungen" zu definieren
- Field-Level-Erkennung wird von den spezifischen Tools für Entwickler unterstützt, wie Voting API und "On-the-Fly" Tuning.
Benutzersprachen
Um die Erkennungsqualität zu erhöhen bietet ABBYY FineReader Engine eine API für die Erstellung und Bearbeitung von Erkennungssprachen, die Anpassung vordefinierter Erkennungssprachen und das Hinzufügen neuer Wörter zu den Benutzersprachen. Beispiele:
- Um die Qualität der ICR-Erkennung in Formularen zu verbessern, können Sie Benutzersprachen verwenden, um die Art der Informationen zu beschreiben, die in jedes Feld eingegeben werden können (Postleitzahlen, Produktcodes, Zahlen).
- Um die Erkennung von Produktcodes, Telefon- oder Passnummern zu verbessern, können Sie eine neue Erkennungsspracheerstellen, die dem Programm hilft, bestimmte Arten von Daten zu lesen.