Opcje: OCR

To okno dialogowe służy do wybierania ustawień OCR. Można je wyświetlić:

  • w programie OmniPage,

  • z poziomu aplikacji pakietu Microsoft Office i programu WordPerfect w przypadku używania modułu Direct OCR,

  • w programie PaperPort (jeśli jest zainstalowany).

Aby wyświetlić to okno dialogowe w programie OmniPage

Aby wyświetlić to okno dialogowe dla modułu Direct OCR (w aplikacjach pakietu Microsoft Office i w programie WordPerfect)

  • W programie WordPerfect lub w starszej wersji pakietu Microsoft Office kliknij przycisk Ustawienia pobierania tekstu Omnipage icon acquire text settings OCR na pasku narzędzi programu OmniPage (lub użyj menu Plik). W aplikacji pakietu Microsoft Office 2007 lub 2010 kliknij ten przycisk na karcie Nuance OCR.

Aby wyświetlić to okno dialogowe w programie PaperPort

  1. Kliknij prawym przyciskiem myszy ikonę programu Microsoft Word na pasku programu PaperPort Wyślij do, a następnie wybierz polecenie Opcje Wyślij do. Zostanie wyświetlone okno dialogowe Opcje Wyślij do.

  2. Z listy rozwijanej Konwertuj obraz na tekst (OCR) za pomocą wybierz pozycję OmniPage 18, a następnie kliknij przycisk Ustawienia. Pojawi się okno dialogowe Opcje z wyświetlonym panelem OCR.

W panelu OCR dostępne są następujące ustawienia:

Opis układu

Ustawienia te wpływają na proces automatycznego wyznaczania stref.

Automatycznie: W większości przypadków właściwym ustawieniem jest opcja Automatycznie, która powoduje pozostawienie programowi wszystkich decyzji dotyczących wyznaczania stref. Należy wybrać opcję Automatycznie, jeśli dokument zawiera strony o różnych układach. Opcja Automatycznie jest odpowiednia dla stron zawierających kilka szpalt i tabelę, a także dla stron zawierających więcej niż jedną tabelę.

Jedna szpalta, bez tabel: Ustawienie właściwe dla stron zawierających tylko jedną szpaltę tekstu i nie zawierających tabel. Wygląd taki mają zwykle listy handlowe lub strony książek. Opcję tę należy wybrać również wtedy, gdy strona zawiera wyrazy lub liczby rozmieszczone w szpaltach, które nie mają zostać umieszczone w tabeli, rozszpaltowane ani traktowane jak odrębne szpalty.

Kilka szpalt, bez tabel: To ustawienie należy wybrać, jeśli niektóre strony zawierają tekst w szpaltach, który ma zostać rozszpaltowany lub zachowany w oddzielnych szpaltach.

Jedna szpalta, z tabelą: To ustawienie należy wybrać, jeśli strona zawiera tylko jedną szpaltę tekstu oraz tabelę.

Arkusz kalkulacyjny: To ustawienie należy wybrać, jeśli cała strona składa się z tabeli, która ma zostać wyeksportowana do programu arkusza kalkulacyjnego albo zostać potraktowana jak tabela. Nie będą wykrywane żadne strefy tekstu ciągłego.

Formularz: To ustawienie należy wybrać, jeśli strony zawierają formularze.

Urzędowy z numerami wierszy: To ustawienie należy wybrać w przypadku dokumentów urzędowych.

Niestandardowy (zdefiniowany przez użytkownika): To ustawienie należy wybrać w celu precyzyjnego opisania układu stron w dokumencie. Następnie należy kliknąć przycisk Układ niestandardowy, aby określić ustawienia w oknie dialogowym Układ niestandardowy, które mają wpływ na sposób przepływu tekstu oraz wykrywanie tabel i grafiki podczas automatycznego wyznaczania stref.  

Szablon: Za pomocą tej opcji można wyznaczyć strefy, używając określonego szablonu.

Optymalizowanie procesu OCR do

Kliknięcie opcji Szybkość powoduje zoptymalizowanie rozpoznawania pod kątem szybkości. Użycie opcji Szybkość dla dokumentów dobrej jakości może nadal dać zadowalającą dokładność. Kliknięcie opcji Dokładność powoduje zoptymalizowanie rozpoznawania pod kątem dokładności. Po wybraniu opcji Szybkość nie można zachować zaawansowanych atrybutów formatowania, takich jak kolorowy tekst i tło lub tekst odwrócony.

Języki i słowniki

Języki w dokumencie

Należy wybrać języki, które występują dokumencie przeznaczonym do przetworzenia. Będą to języki wyszukiwane przez program OmniPage podczas procesu OCR. Dla przyspieszenia procesu i zwiększenia rzetelności rozpoznawania oraz usprawnienia korekty należy wybierać tylko te języki, które faktycznie występują w dokumencie.

Pierwsze na liście podane są ostatnio wybrane języki. Pozostałe języki są wymienione alfabetycznie. Wpisanie pierwszej litery powoduje przewinięcie listy do języków zaczynających się na tę literę.

Omnipage icon dict OCR

Ikona ta wskazuje język z obsługą słownikową. Program korzysta ze słownika w celu ułatwienia procesu OCR, automatycznego wykrywania języka i udostępniania sugestii podczas korekty.

W przypadku ustawień języków japońskiego, koreańskiego i chińskiego jest używany dedykowany aparat rozpoznawania. Nie należy wybierać więcej niż jednego z tych języków naraz ani łączyć tych języków z jakimkolwiek językiem nieazjatyckim. Krótkie teksty osadzone w języku angielskim mogą być rozpoznawane bez wybierania angielskiego jako języka rozpoznawania. Więcej informacji zawiera temat Rozpoznawanie języków azjatyckich.

Automatycznie wykryj pojedynczy język

Ta opcja jest stosowana podczas przetwarzania bez nadzoru, gdy nie można z góry wskazać języka przychodzących dokumentów. Po jej włączeniu nie można wybrać żadnej innej opcji języka. Tę opcję można stosować dla wszystkich języków z obsługą słownika i alfabetem łacińskim, a także dla czterech języków azjatyckich. Nie są obsługiwane języki rosyjski i grecki.

Na liście rozwijanej poniżej znacznika wyboru są dostępne trzy
grupy języków:

  • Języki z alfabetem łacińskim (wybranie tej opcji powoduje wyświetlenie obsługiwanych języków)

  • Języki azjatyckie (chiński tradycyjny, chiński uproszczony, japoński i koreański)

  • Języki z alfabetem łacińskim i azjatyckie (wszystkie powyższe języki)

Podczas pobierania stron program analizuje umieszczony na nich tekst i przypisuje do każdej strony jeden zatwierdzony język rozpoznawania. W przypadku włączenia tej opcji nie jest dostępna poniższa opcja.

Weryfikuj wybór języków

Zaznaczenie tego pola wyboru powoduje włączenie funkcji automatycznego wykrywania języka, która ostrzega o różnicach między wykrytym językiem i określonym ustawieniem języka. Ta funkcja działa na poziomie stron i identyfikuje cztery kategorie: języki japoński, chiński i koreański oraz języki nieazjatyckie. Nie umożliwia ona rozróżniania języka chińskiego tradycyjnego i uproszczonego ani poszczególnych języków nieazjatyckich. Ostatnia kategoria oznacza, że nie wykryto znaków języka japońskiego, chińskiego ani koreańskiego. Weryfikacja odbywa się podczas przetwarzania wstępnego obrazów, dlatego wymagany język rozpoznawania należy ustawić przed ich załadowaniem. Wykrywanie jest bardziej niezawodne w przypadku co najmniej kilku wierszy tekstu i minimalnej ilości osadzonego tekstu w języku angielskim.

Słowniki profesjonalne

Kliknięcie pola wyboru obok słownika powoduje jego wybranie. Dostępne opcje: Holenderski prawniczy, Holenderski medyczny, Angielski prawniczy, Angielski medyczny, Angielski finansowy (tylko w programie OmniPage Professional), Francuski prawniczy, Francuski medyczny, Niemiecki prawniczy i Niemiecki medyczny. Aby usunąć zaznaczenie słownika profesjonalnego, należy kliknąć go ponownie.

Słownik użytkownika

Opcjonalnie można wybrać słownik użytkownika. Jest to osobisty słownik, do którego można dodawać wyrazy. Stanowi on uzupełnienie wbudowanych słowników programu, zarówno podczas procesu OCR, jak i podczas korekty pisowni. Stosowanie słownika użytkownika może zapobiec określaniu przez program jako niepewnych wyrazów będących nazwami własnymi lub terminami specjalistycznymi. Można utworzyć i zapisać dowolną liczbę słowników użytkownika.

Kliknięcie przycisku z prawej strony listy rozwijanej umożliwia utworzenie, edycję, dodanie i usunięcie słownika użytkownika. Wybranie opcji [brak] powoduje usunięcie słownika użytkownika z pamięci.

Słowniki użytkownika można ładować i zapisywać w lokalizacjach sieciowych i innych.

Na liście pojawią się także wszystkie słowniki użytkownika z programu Microsoft Word wykryte na komputerze. Może też być wymieniony słownik o nazwie Niestandardowy — jest to domyślny słownik programu Word.

W przypadku rozpoznawania znaków azjatyckich nie można korzystać ze słowników użytkownika.

Czcionki i znaki

Dopasowanie czcionek

Kliknięcie przycisku Dopasowanie czcionek umożliwia wybranie czcionek w systemie, które mają być dostępne na potrzeby dopasowywania lub przedstawiania czcionek w dokumentach. Dopasowywanie czcionek nie wpływa na rozpoznawanie znaków azjatyckich — w takich przypadkach jest automatycznie ustawiana czcionka obsługująca znaki azjatyckie.

Znaki dodatkowe

Należy tu wprowadzić znaki akcentowane, które mają zostać włączone do rozpoznawania jako uzupełnienie znaków zatwierdzonych przez wybór języka. Znaki można wprowadzać za pomocą klawiatury lub tablicy znaków.

Aby otworzyć tablicę znaków, należy kliknąć pozycję Omnipage tb f charmap OCR.

Znak odrzucenia

Nierozpoznane znaki są oznaczane w Edytorze tekstu czerwonym znakiem odrzucenia (domyślnie jest to tylda: ~). Jeśli na przykład program OmniPage nie mógł rozpoznać litery R w wyrazie ODRZUCONY, a znakiem odrzucenia jest ~, w dokumencie pojawi się ciąg OD~ZUCONY.

W polu edycji Znak odrzucenia można wpisać znak, który ma być używany. Nie należy używać znaków, które występują zwykle w dokumentach.

Aby otworzyć tablicę znaków, należy kliknąć pozycję Omnipage tb f charmap OCR.

Tablica znaków

Z tablicy znaków można kopiować znaki akcentowane do wklejenia w polu edycji. Wyszarzone znaki w tablicy znaków nie są włączone na potrzeby rozpoznawania, ale można je wstawiać w polu edycji. Aby wyświetlić lub ukryć zestawy znaków, należy kliknąć prawym przyciskiem myszy pusty obszar poniżej tablicy znaków i użyć menu kontekstowego. Znaki azjatyckie nie są obsługiwane.

//

OCR