Erkennung asiatischer Sprachen

Es werden vier Sprachen mit asiatischem Alphabet unterstützt: Japanisch, Koreanisch, traditionelles Chinesisch und vereinfachtes Chinesisch. Die ideale Schriftgröße für Text ist 12 Punkt, gescannt mit 300 DPI. Die Schriftzeichen haben dann eine Größe von etwa 48 x 48 Pixel. Die erforderliche Mindestgröße der Zeichen ist 30 x 30, d. h. 10,5 Punkt bei 300 DPI. Bei kleinerer Schrift sollten Sie mit 400 DPI scannen.

Japanische und chinesische Texte können horizontal (von links nach rechts) oder vertikal (von oben nach unten und rechts nach links) verlaufen. Koreanischer Text verläuft immer horizontal.

Ein Beispiel für chinesischen Text: Omnipage chinese sample Erkennung asiatischer Sprachen und koreanischen Text: Omnipage korean sample Erkennung asiatischer Sprachen

Weiter unten ist auch ein Beispiel für japanischen Text zu sehen.

Alle von OmniPage 18 unterstützten Betriebssysteme können asiatische Sprachen verarbeiten. Wurde bei der Systeminstallation jedoch die Unterstützung für ostasiatische Sprachen nicht mit installiert, müssen Sie sie zunächst über die Systemsteuerung hinzufügen. Wählen Sie dort Regions- und Sprachoptionen und markieren Sie im Register Sprachen unter Zusätzliche Sprachunterstützung das Kontrollkästchen Dateien für ostasiatische Sprachen installieren. Möglicherweise müssen Sie dazu die Windows-System-CD einlegen.

Die vier asiatischen Sprachen sind zusammen mit den übrigen Sprachen alphabetisch sortiert im Dialogfeld Optionen im Register OCR aufgeführt. Wählen Sie jeweils nur eine dieser Sprachen aus, um Konflikte zu vermeiden. Bei der OCR asiatischer Sprachen können kurze eingebettete Texte in englischer Sprache verarbeitet werden, ohne dass Englisch explizit als Sprache angegeben werden muss. Die Verarbeitung längerer englischer Texte sowie von Texten in anderen westlichen Sprachen ist jedoch nicht möglich.

 

In vertikal verlaufendem Japanisch und Chinesisch können englische Elemente in verschiedenen Ausrichtungen eingebettet sein:

Neon

Rechtsgedreht

Nebeneinander

Omnipage asian vertical neon Erkennung asiatischer Sprachen

Omnipage asian vertical right Erkennung asiatischer Sprachen

Omnipage asian vertical sidebyside Erkennung asiatischer Sprachen

 

Ausgabe

 

Das Programm kann den englischen Text verarbeiten. Der Text wird bei der Ausgabe nach rechts gedreht.

Überprüfung der Sprache

Die Option Sprachauswahl überprüfen neben der Sprachenliste erzeugt eine automatische Erkennung der im Dokument enthaltenen Sprache und warnt Sie, wenn die Spracheinstellung nicht der im Dokument enthaltenen Sprache entspricht. Diese Prüfung findet auf jeder Seite statt und identifiziert vier Kategorien: Japanisch, Chinesisch, Koreanisch und nichtasiatisch. Dabei wird nicht zwischen traditionellem und vereinfachtem Chinesisch unterschieden und nichtasiatische Sprachen werden nicht im Einzelnen identifiziert. Ist das Ergebnis der Prüfung „nichtasiatisch“, wurden keine japanischen, chinesischen oder koreanischen Schriftzeichen gefunden. Die Prüfung findet während der Vorverarbeitung des Bildes statt. Die Erkennungssprache muss also vor dem Laden des Bildes ausgewählt werden. Die Erkennung ist zuverlässiger, wenn mehrere Zeilen Text vorliegen und nur wenig Englisch eingebettet ist.

Identifizierung einer einzigen Sprache

Asiatische Sprachen können mit der Option Automatisch eine einzige Sprache erkennen verarbeitet werden. Dies bietet sich bei unbeaufsichtigter Verarbeitung an, wenn verschiedene Eingangsdokumente in unterschiedlichen Sprachen abgefasst sein können. Siehe OCR-Optionen. Wählen Sie aus der Dropdown-Liste die Option Asiatische Sprachen oder Lateinisches Alphabet und asiatische Sprachen, wenn diese Sprachen bei der Erkennung berücksichtigt werden sollen. Ist diese Option ausgewählt, kann die Funktion Sprachauswahl überprüfen nicht verwendet werden, und es kann keine individuelle Sprachauswahl mehr getroffen werden.

Layout und Bereichseinteilung

Für asiatische Sprachen sollten Sie automatisches Layout und automatische Bereichseinteilung wählen. Der erkannte Text wird dann in Textbereiche platziert. Wenn Sie eine asiatische Erkennungssprache wählen, können Sie an diesen Bereichen die OCR in der asiatischen Sprache durchführen. Dabei kann die Textrichtung automatisch erkannt und übertragen werden, und auch horizontaler und vertikaler Text auf derselben Seite wird erkannt.

Mit dem Werkzeug zur Bereichseinteilung Omnipage zone asian vertical Erkennung asiatischer Sprachen hingegen können Sie die Seite manuell in Bereiche einteilen und die vertikale Textrichtung einstellen. Bitte zeichnen Sie mit diesem Werkzeug rechteckige Bereiche ein. Um manuell Bereiche für horizontal verlaufenden asiatischen Text einzuzeichnen, verwenden Sie den üblichen Bereichstyp „Text“. Die anderen beiden Werkzeuge für vertikalen Text sind für asiatische Schrift nicht geeignet. Durch Einzeichnen eines vertikalen asiatischen Bereichs wird nicht automatisch auch eine asiatische Sprache aktiviert und die automatische Spracherkennung wird dadurch nicht beeinflusst.

Digitalkamerabilder

Bilder von Digitalkameras können für die Erkennung asiatischer Sprachen verwendet werden. Die automatische 3D-Begradigung hat dabei jedoch wahrscheinlich keinen Nutzen und ist keinesfalls für vertikale Texte geeignet. Verwenden Sie stattdessen besser den Standardladebefehl für Bilder und führen Sie wenn nötig mit den SET-Werkzeugen eine manuelle 3D-Begradigung durch. Die SET-Werkzeuge können im Allgemeinen auch für asiatische Bilddateien verwendet werden.

Asiatische Texte im Texteditor

Erkannte Seiten mit asiatischem Text werden im Texteditor angezeigt, sofern Ihr System ostasiatische Sprachen unterstützt. Die Textrichtung ist dabei immer horizontal. Sie müssen dazu unter Optionen/OCR keine asiatischen Schriftsätze angeben. Es wird automatisch eine Standardschrift angewandt, in der Regel Arial Unicode MS. Im Texteditor können Sie andere auf Ihrem System installierte Schriftarten für asiatische Sprachen auswählen. Wird eine Schriftart gewählt, die asiatische Zeichen nicht unterstützt, werden die Zeichen durch Rechtecke dargestellt.

Der Editor unterstützt das Anzeigen und Überprüfen von Text – vermeiden Sie bei vertikalen Texten den Formatierungsgrad True Page. Umfangreichere Änderung
en und die Rechtschreibprüfung nehmen Sie besser in der Zielanwendung vor. Textprüfung, Training und Wörterbuchunterstützung stehen für asiatische Texte nicht zur Verfügung. Bevor Sie die OCR an asiatischen Texten durchführen, gehen Sie daher bitte im Dialogfeld Optionen zum Register Prüfung und deaktivieren Sie die Optionen Alle nicht im Wörterbuch enthaltenen Wörter markieren, Ergebnisse nach Texterkennung automatisch prüfen und IntelliTrain aktivieren, sodass keine Trainingsdatei geladen wird. Die Schwärzungsfunktion kann auf asiatische Texte angewandt werden, sowohl durch Suchen als auch durch Auswahl einzelner Textstellen.

Ausgabe asiatischer Zeichen

Als Ausgabekonverter für asiatischen Text verwenden Sie RTF, Microsoft Word, Durchsuchbares PDF-Bild oder Durchsuchbares XPS-Bild. Die bei der Vorverarbeitung erkannte Textrichtung wird auch auf die Ausgabedatei angewandt, wenn mit dem Formatierungsgrad True Page oder Fließseite exportiert wird. Änderungen, die Sie im Texteditor vornehmen – wo der Text immer horizontal verläuft – werden auch in vertikale Textformate exportiert. Es stehen auch Konverter für unformatierten Text zur Verfügung (Unicode TXT, Notepad/Editor), jedoch ausschließlich mit horizontaler Textrichtung.

 

  • Der Arbeitsschritt Formulardaten extrahieren sollte für Seiten mit asiatischen Sprachen nicht verwendet werden.

 

  • Beim Arbeiten mit vertikalem asiatischem Text ist die Einstellung Formatierter Text für die Anzeige der Ergebnisse im Texteditor am besten geeignet. Für den Export sollte jedoch der Formatierungsgrad True Page oder Fließseite verwendet werden.

Erkennung asiatischer Sprachen