Optionen: OCR

In diesem Dialogfeld können Sie OCR-Einstellungen auswählen. Es kann auf folgende Arten angezeigt werden:

  • in OmniPage,

  • aus Microsoft Office-Anwendungen und WordPerfect, wenn Direct OCR verwendet wird,

  • in PaperPort (wenn diese Anwendung installiert ist).

So öffnen Sie dieses Dialogfeld in OmniPage:

  • Öffnen Sie das Dialogfeld Optionen über die Schaltfläche Optionen Omnipage tb st options OCR in der Standardwerkzeugleiste oder über das Menü Extras.

So öffnen Sie dieses Dialogfeld für Direct OCR (in Microsoft Office-Anwendungen und Word Perfect):

  • Klicken Sie in einerMicrosoft-Office-2007- oder 2010-Anwendung im Register Nuance OCR oder im Menü Datei auf die Option Einstellungen für Texterfassung Omnipage icon acquire text settings OCR. In WordPerfect oder einer früheren Version von Microsoft Office finden Sie diese Option in der OmniPage-Werkzeugleiste oder im Menü Datei.

So öffnen Sie das Dialogfeld in PaperPort:

  1. Klicken Sie mit der rechten Maustaste auf das Microsoft Word-Symbol in der PaperPort Sendeleiste und wählen Sie den Befehl Sendeoptionen. Das Dialogfeld Sendeoptionen wird geöffnet.

  2. Wählen Sie im Auswahlfeld Bild konvertieren in Text (OCR) mit die Option OmniPage 18 und klicken Sie dann auf die Schaltfläche Einstellungen. Das Dialogfeld Optionen wird mit geöffnetem Register OCR angezeigt.

Im Register OCR können Sie die folgenden Einstellungen vornehmen:

Layout-Beschreibung

Mit diesen Einstellungen beeinflussen Sie die automatische Bereichseinteilung.

Automatisch: In den meisten Fällen ist Automatisch die geeignete Einstellung. Das Programm nimmt dann alle Bereichseinteilungen eigenständig vor. Wenn sich auf verschiedenen Seiten des Dokuments unterschiedliche Layouts befinden, wählen Sie diese Einstellung. Auch für eine Seite mit mehreren Spalten und einer Tabelle und für Seiten mit mehr als einer Tabelle sollten Sie diese Einstellung verwenden.

Einspaltig, keine Tabelle: Wählen Sie diese Einstellung, wenn auf der Seite der Text nur in einer Spalte formatiert und keine Tabelle vorhanden ist. Typische Beispiele hierfür sind Geschäftsbriefe und Buchseiten. Wählen Sie diese Einstellung auch bei Seiten, auf denen Wörter oder Zahlen in Spalten angeordnet sind, wenn diese weder in eine Tabelle gestellt, noch aus der Spaltenanordnung genommen werden, noch als einzelne Spalten behandelt werden sollen.

Mehrspaltig, keine Tabelle: Wählen Sie diese Einstellung, wenn auf einigen Seiten der Text in Spalten formatiert ist und Sie die Spalten auflösen oder den Text in getrennten Spalten beibehalten möchten.

Einspaltig, mit Tabelle: Wählen Sie diese Option, wenn auf den Seiten nur einspaltiger Text und eine Tabelle vorhanden sind.

Kalkulationstabelle: Wählen Sie diese Option aus, falls die gesamte Seite aus einer Tabelle besteht, die Sie in ein Tabellenkalkulationsprogramm exportieren oder als Tabelle behandeln möchten. Es werden keine Fließtextbereiche erkannt.

Formular: Wählen Sie diese Option, wenn die Seite ein Formular enthält.

Rechtsdokument mit Zeilennummerierung: Wählen Sie diese Einstellung für Rechtsdokumente.

Benutzerdefiniert: Hiermit können Sie das Layout der Seiten im Dokument ganz genau beschreiben. Klicken Sie dann auf die Schaltfläche Benutzerdefiniertes Layout. Im Dialogfeld Benutzerdefiniertes Layout können Sie Einstellungen in Bezug auf Textfluss und Tabellen- und Grafikerkennung bei der automatischen Bereichseinteilung festlegen.

Vorlage: Hiermit führen Sie die Bereichseinteilung anhand einer von Ihnen ausgewählten Vorlage durch.

OCR-Prozess optimieren für…

Klicken Sie auf Geschwindigkeit, um die Erkennung für Geschwindigkeit zu optimieren. Bei Dokumenten in guter Druckqualität können mit dieser Einstellung akzeptable OCR-Ergebnisse erzielt werden. Klicken Sie auf Genauigkeit, um die Erkennung für Genauigkeit zu optimieren. Wenn Sie Geschwindigkeit wählen, können erweiterte Formatierungen, wie farbliche Texte und Hintergründe oder invertierter Text nicht beibehalten werden.

Sprachen und Wörterbücher

Sprachen im Dokument

Wählen Sie die Sprachen, die im zu verarbeitenden Dokument enthalten sind. Nach diesen Sprachen sucht OmniPage während der OCR. Sie verbessern die Schnelligkeit und das Ergebnis der Erkennung und erhalten zuverlässigere Vorschläge bei der Prüfung, wenn Sie nur Sprachen wählen, die tatsächlich im Dokument vorkommen.

Am Anfang der Liste werden die Sprachen aufgeführt, die Sie zuletzt ausgewählt haben. Die übrigen Sprachen werden darunter in alphabetischer Reihenfolge aufgeführt. Durch Eingeben eines Buchstabens können Sie zum entsprechenden Anfangsbuchstaben springen.

Omnipage icon dict OCR

Dies Symbol kennzeichnet Sprachen, für die Wörterbücher zur Verfügung stehen. Das Wörterbuch unterstützt die OCR, bietet bei der Dokumentprüfung Vorschläge an und dient zum Abgleich bei der automatischen Sprachidentifikation.

Wenn die Sprachen Japanisch, Koreanisch oder Chinesisch eingestellt sind, wird eine separate Spracherkennungs-Engine aufgerufen. Es darf immer nur eine dieser Sprachen ausgewählt werden, und sie dürfen auch nicht mit einer nichtasiatischen Sprache kombiniert werden. Kurze eingebettete Texte in englischer Sprache werden erkannt, ohne dass Englisch als Erkennungssprache gewählt werden muss. Siehe Erkennung asiatischer Sprachen.

Automatisch eine einzige Sprache erkennen

Diese Funktion ist für die unbeaufsichtigte Verarbeitung konzipiert, wenn die Sprache der eingehenden Dokumente nicht im Vorfeld bestimmt werden kann. Ist sie aktiviert, stehen keine weiteren Sprachoptionen zur Verfügung. Sie funktioniert mit allen Sprachen mit Wörterbuchunterstützung, die das lateinische Alphabet verwenden, sowie mit vier asiatischen Sprachen. Für Russisch und Griechisch ist diese Funktion
nicht verfügbar.

In der Dropdown-Liste unter dem Häkchen werden drei Sprachgruppen angeboten:

  • Lateinisches Alphabet (wählen Sie diese Gruppe aus, um die aktivierten Sprachen anzuzeigen)

  • Asiatische Sprachen (Chinesisch (traditionell), Chinesisch (vereinfacht), Japanisch und Koreanisch).

  • Lateinisches Alphabet und asiatische Sprachen (alle oben aufgeführten)

Die Seiten der eingehenden Texte werden analysiert und jeder Seite wird nach der Prüfung eine einzige Erkennungssprache zugewiesen. Ist diese Option aktiviert, steht die folgende Option nicht zur Verfügung.

Sprachauswahl überprüfen

Wenn Sie diese Option aktivieren, wird eine automatische Sprachidentifizierung gestartet, die Sie darauf hinweist, wenn die identifizierte Sprache und die eingestellte Sprache nicht übereinstimmen. Diese Prüfung findet auf jeder Seite statt und identifiziert vier Kategorien: Japanisch, Chinesisch, Koreanisch und nichtasiatisch. Dabei wird nicht zwischen traditionellem und vereinfachtem Chinesisch unterschieden und nichtasiatische Sprachen werden nicht im Einzelnen identifiziert. Ist das Ergebnis der Prüfung „nichtasiatisch“, wurden keine japanischen, chinesischen oder koreanischen Schriftzeichen gefunden. Die Prüfung findet während der Vorverarbeitung des Bildes statt. Die Erkennungssprache muss also vor dem Laden des Bildes ausgewählt werden. Die Erkennung ist zuverlässiger, wenn mehrere Zeilen Text vorliegen und nur wenig Englisch eingebettet ist.

Professionelle Wörterbücher

Klicken Sie in das Kontrollkästchen neben dem Namen eines Wörterbuchs, um es auszuwählen. Zur Auswahl stehen: Fachwörterbücher für Recht und Medizin für Deutsch, Englisch, Französisch und Holländisch sowie ein Finanzwörterbuch für Englisch (nur in OmniPage Professional). Klicken Sie erneut auf ein professionelles Wörterbuch, um seine Auswahl aufzuheben.

Anwenderwörterbuch

Bei Bedarf können Sie auch ein Anwenderwörterbuch auswählen. Dies ist Ihr persönliches Wörterbuch, in das Sie Wörter aufnehmen können. Es ergänzt die im Programm enthaltenen Wörterbücher sowohl bei der Erkennung als auch bei der Prüfung. Ein Anwenderwörterbuch ist besonders hilfreich, damit das Programm Eigennamen oder Fachausdrücke in Ihren Dokumenten nicht als unbekannt markiert. Sie können eine beliebige Anzahl von Anwenderwörterbüchern erstellen und speichern.

Klicken Sie auf die Schaltfläche rechts neben dem Auswahlfeld, um ein Anwenderwörterbuch zu erstellen, zu bearbeiten oder zu entfernen. Wählen Sie [keine], um ein Anwenderwörterbuch zu entfernen.

Sie können Anwenderwörterbücher aus dem Netzwerk oder von anderen Speicherorten laden bzw. dort abspeichern.

Es werden auch die Benutzerwörterbücher von Microsoft Word, die auf Ihrem System festgestellt werden, aufgelistet. Möglicherweise wird ein Wörterbuch namens Benutzer.dic angezeigt – dies ist das Standardwörterbuch aus Word.

Bei der Erkennung asiatischer Zeichen können keine Anwenderwörterbücher verwendet werden.

Schriftarten und Zeichen

Schriftartzuordnung

Klicken Sie auf die Schaltfläche Schriftartzuordnung, um festzulegen, welche der im System installierten Schriftarten bei der Zuordnung oder Darstellung der im Dokument verwendeten Schriftarten eingesetzt werden soll. Die Schriftartzuordnung hat bei asiatischen Sprachen keine Wirkung. In diesen Fällen wird automatisch eine Schriftart eingestellt, die asiatische Zeichen unterstützt.

Zusätzliche Zeichen

Neben den durch Ihre Sprachauswahl unterstützten Akzentbuchstaben, können Sie hier zusätzliche Akzentbuchstaben eingeben. Geben Sie die Buchstaben über Ihre Tastatur oder mithilfe der Zeichentabelle ein.

Klicken Sie auf Omnipage tb f charmap OCR, um die Zeichentabelle aufzurufen.

Auslassungszeichen

Nicht erkennbare Zeichen werden im Texteditor durch ein rotes Auslassungszeichen (standardmäßig eine Tilde: ~) dargestellt. Wenn OmniPage beispielsweise das Zeichen „G“ in „FRAGLICH“ nicht erkennt und ~ als Auslassungszeichen verwendet wird, wird im Dokument „FRA~LICH“ angezeigt.

Im Feld Auslassungszeichen geben Sie das Zeichen ein, das als Auslassungszeichen verwendet werden soll. Dabei sollten Sie ein Zeichen wählen, das normalerweise nicht in den Dokumenten enthalten ist.

Klicken Sie auf Omnipage tb f charmap OCR, um die Zeichentabelle aufzurufen.

Zeichentabelle

Damit können Sie Akzentbuchstaben in das Bearbeitungsfeld kopieren bzw. einfügen. Grau dargestellte Zeichen in der Zeichentabelle sind nicht für die Erkennung aktiviert, können aber in das Bearbeitungsfeld eingefügt werden. Um Zeichensätze ein- oder auszublenden, klicken Sie mit der rechten Maustaste in einen leeren Bereich unterhalb der Zeichentabelle und verwenden Sie das Kontextmenü. Asiatische Zeichen werden nicht unterstützt:

//

OCR