Rozpoznawanie języków azjatyckich

Obsługiwane są cztery języki z alfabetami azjatyckimi: japoński, koreański, chiński tradycyjny i chiński uproszczony. Idealny rozmiar czcionki tekstu podstawowego wynosi 12 punktów, co po zeskanowaniu w rozdzielczości 300 dpi daje znaki o wymiarach około 48 x 48 pikseli. Minimalne wymiary to 30 x 30 pikseli, czyli 10,5 punktu w rozdzielczości 300 dpi. Mniejsze znaki należy skanować w rozdzielczości 400 dpi.

Tekst w języku japońskim i chińskim może być poziomy (od lewej do prawej) lub pionowy (od góry do dołu, od prawej do lewej). Tekst w języku koreańskim jest zawsze poziomy.

Oto przykładowy tekst w języku chińskim: Omnipage chinese sample Rozpoznawanie języków azjatyckich oraz w języku koreańskim: Omnipage korean sample Rozpoznawanie języków azjatyckich

Poniżej przedstawiono tekst w języku japońskim.

Systemy operacyjne, w których można uruchomić program OmniPage 18, obsługują języki azjatyckie, jednak jeśli podczas instalacji systemu nie wybrano obsługi języków wschodnioazjatyckich, trzeba ją dodać, wybierając kolejno pozycje Panel sterowania/Ustawienia regionalne i językowe/Języki/Obsługa języków dodatkowych/Zainstaluj pliki dla języków wschodnioazjatyckich. Może to wymagać włożenia do napędu komputera dysku instalacyjnego systemu Windows.

Cztery języki azjatyckie są wyświetlane w kolejności alfabetycznej wraz z innymi językami na liście w panelu OCR okna dialogowego Opcje. Należy wybrać tylko jeden z tych języków naraz i unikać wybierania go jednocześnie z innymi językami. Azjatycki mechanizm OCR umożliwia obsługę krótkich osadzonych tekstów angielskich bez konieczności jawnego ustawienia języka angielskiego. Nie jest on przeznaczony do rozpoznawania dłuższych tekstów w języku angielskim ani tekstów w innych językach zachodnich.

 

Tekst pionowy w językach japońskim i chińskim może zawierać tekst angielski osadzony w innych orientacjach:

Neon

W prawo

Obok siebie

Omnipage asian vertical neon Rozpoznawanie języków azjatyckich

Omnipage asian vertical right Rozpoznawanie języków azjatyckich

Omnipage asian vertical sidebyside Rozpoznawanie języków azjatyckich

 

Dokument wyjściowy

 

Program radzi sobie z takimi sytuacjami. W dokumencie wyjściowym tekst angielski jest obrócony w prawo.

Sprawdzanie języków

Obok listy języków znajduje się opcja Weryfikuj wybór języków, która powoduje wywołanie funkcji automatycznego wykrywania języka. Funkcja ta ostrzega o różnicach między wykrytym a ustawionym językiem. Działa ona na poziomie stron i identyfikuje cztery kategorie: języki japoński, chiński i koreański oraz języki nieazjatyckie. Nie obsługuje ona rozróżniania języka chińskiego tradycyjnego i uproszczonego ani poszczególnych języków nieazjatyckich. Ostatnia kategoria oznacza, że nie wykryto znaków języka japońskiego, chińskiego ani koreańskiego. Weryfikacja odbywa się podczas przetwarzania wstępnego obrazów, dlatego wymagany język rozpoznawania należy ustawić przed ich załadowaniem. Wykrywanie jest bardziej niezawodne w przypadku co najmniej kilku wierszy tekstu i minimalnej ilości osadzonego tekstu w języku angielskim.

Wykrywanie jednego języka

Języki azjatyckie można przetwarzać przy użyciu opcji Automatycznie wykryj pojedynczy język. To rozwiązanie jest przydatne w przypadku przetwarzania bez nadzoru dokumentów, które mogą zawierać różne języki. Więcej informacji zawarto w temacie Opcje OCR. Należy wybrać z listy rozwijanej pozycję Języki azjatyckie lub Alfabet łaciński i języki azjatyckie, aby uwzględnić te języki podczas wykrywania. Kiedy jest wybrana ta opcja, nie można użyć ustawienia Weryfikuj wybór języków ani wybrać poszczególnych języków.

Układ i wyznaczanie stref

W przypadku stron z tekstem w językach azjatyckich zalecane jest stosowanie funkcji automatycznego wykrywania układu i automatycznego wyznaczania stref. Dzięki temu wszystkie wykryte teksty zostaną umieszczone w strefach tekstu. Wybranie funkcji rozpoznawania języków azjatyckich powoduje uruchamianie w tych strefach azjatyckiego mechanizmu OCR oraz umożliwia automatyczne wykrywanie i przekazywanie kierunku tekstu. Program radzi sobie wówczas także z mieszaniną obszarów poziomego i pionowego tekstu na stronie.

Jednak narzędzie do wyznaczania stref Omnipage zone asian vertical Rozpoznawanie języków azjatyckich umożliwia wymuszenie rozpoznawania pionowego tekstu azjatyckiego za pomocą funkcji ręcznego wyznaczania stref. Używając tego narzędzia, należy wyznaczyć prostokątne strefy. W celu ręcznego wyznaczenia stref poziomego tekstu azjatyckiego należy użyć zwykłego typu strefy tekstu. W przypadku tekstów azjatyckich nie należy używać dwóch pozostałych narzędzi do przetwarzania tekstu pionowego. Wyznaczenie strefy pionowego tekstu azjatyckiego nie powoduje automatycznego włączenia języka azjatyckiego ani nie wpływa na automatyczne wykrywanie języka.

Obrazy z aparatów cyfrowych

W przypadku języków azjatyckich akceptowane są obrazy z aparatu cyfrowego. Jednak algorytm automatycznego usuwania pochylenia 3-W raczej nie będzie przydatny, a z całą pewnością nie w przypadków tekstów pionowych. Najlepiej użyć standardowego polecenia ładowania obrazu i w razie potrzeby ręcznie usunąć pochylenie 3-W za pomocą odpowiedniego narzędzia SET. Na ogół w przypadku obrazów azjatyckich można używać narzędzi SET.

Tekst azjatycki w Edytorze tekstu

Rozpoznane strony z tekstem w języku azjatyckim są wyświetlane w Edytorze tekstu (pod warunkiem, że w systemie zainstalowano obsługę języków wschodnioazjatyckich) zawsze z poziomym kierunkiem tekstu. Nie trzeba określać azjatyckich czcionek w panelu OCR okna dialogowego Opcje. Automatycznie jest stosowana czcionka domyślna — zazwyczaj Arial Unicode MS. W Edytorze tekstu można wybrać inne dostępne w systemie czcionki obsługujące znaki azjatyckie. Wybranie czcionki bez obsługi znaków azjatyckich powoduje zamianę znaków azjatyckich na prostokąty.

Edytor umożliwia wyświetlanie i weryfikowanie tekstu. W przypadku tekstów pionowych nie należy używać widoku True Page. Edycję dużych ilości tekstu i sprawdzanie pisowni lepiej wykonać w aplikacji docelowej. Korekta, uczenie i obsługa słowników są niedostępne w przypadku tekstów w ję
zykach azjatyckich. Dlatego przed uruchomieniem azjatyckiego mechanizmu OCR należy przejść do panelu Korekta w oknie dialogowym Opcje, a następnie wyłączyć oznaczanie wyrazów na podstawie słowników, automatyczną korektę i moduł IntelliTrain oraz upewnić się, że nie jest załadowany żaden plik uczenia. Redakcję można stosować do tekstów azjatyckich metodą zaznaczania lub wyszukiwania.

Pliki wyjściowe w językach azjatyckich

Typowe konwertery wyjściowe dla tekstów azjatyckich to RTF, Microsoft Word, pliki PDF lub XPS z możliwością przeszukiwania. Kierunek tekstu wykryty podczas przetwarzania wstępnego zostanie zastosowany do pliku wyjściowego, jeśli ustawiono eksportowanie z widoku True Page lub Strona ciągła. Zmiany wprowadzone w Edytorze tekstu, w którym tekst jest zawsze poziomy, także zostaną wyeksportowane jako pionowy tekst. Dostępne są konwertery z widoku Zwykły tekst (Unicode TXT, Notatnik), ale w ich przypadku kierunek tekstu będzie zawsze poziomy.

 

  • Do stron azjatyckich nie należy stosować kroku przepływu czynności Wyodrębnianie danych formularza.

 

  • W przypadku obsługi tekstu azjatyckiego ustawienie Tekst sformatowany sprawdza się najlepiej w przypadku wyświetlania wyników w Edytorze tekstu, ale dla potrzeb eksportowania należy użyć poziomu formatowania True Page lub Strona ciągła.

Rozpoznawanie języków azjatyckich