Poprawianie dokładności

Poniższe wskazówki ułatwiają zwiększenie dokładności rozpoznawania OCR w programie OmniPage.

Wybieranie ustawień zwiększających dokładność rozpoznawania w oknie dialogowym Opcje

Aby otworzyć to okno, należy wybrać z menu Narzędzia polecenie Opcje lub kliknąć przycisk Omnipage tb st options Poprawianie dokładności na pasku narzędzi Standardowe. Następnie należy kliknąć kartę odpowiadającą ustawieniom, które mają zostać zmienione:

  • W panelu OCR w obszarze Optymalizowanie procesu OCR do należy wybrać pozycję Dokładność.

  • W panelu Skaner należy dostosować ustawienia suwaków jasności i kontrastu. Kliknięcie tutaj spowoduje wyświetlenie przykładu optymalnej jasności.

  • Obrazy można ulepszyć na potrzeby rozpoznawania OCR za pomocą narzędzi SET.

  • Jeżeli jedynym kryterium jest dokładność rozpoznawania, dokumenty dobrej jakości, z wyraźnym czarnym tekstem na białym tle, należy skanować w trybie czarno-białym. W przypadku stron z tekstem na kolorowym lub zacieniowanym tle albo dokumentów o niskim lub niejednorodnym kontraście należy wybrać skanowanie w skali odcieni szarości.

  • W panelu Korekta można wybrać pozycję Plik uczenia, aby podczas procesu OCR używać pliku uczenia znaków w celu lepszego rozpoznawania znaków specjalnych lub znaków o nietypowym kroju. Więcej informacji zawiera temat Pliki uczenia. Ta opcja nie ma zastosowania do języków azjatyckich.

Używanie odpowiednich środków wspomagających rozpoznawanie

  • Jeżeli rozpoznany ma zostać długi dokument, dla którego nie jest dostępny plik uczenia, należy najpierw przeprowadzić uczenie na kilku typowych stronach dokumentu. W panelu Korekta okna dialogowego Opcje należy włączyć moduł IntelliTrain, a następnie rozpoznać trzy lub cztery strony i dokonać korekty rozpoznanego tekstu. Wyniki uczenia można sprawdzić w oknie dialogowym Edytowanie danych uczenia, a następnie zapisać je w pliku.

  • Jeśli jest załadowany plik uczenia i wyniki rozpoznawania nie są zadowalające, należy sprawdzić zawartość pliku w oknie dialogowym Edytowanie danych uczenia. Należy sprawdzić, czy zawartość pliku jest odpowiednia dla bieżącego dokumentu. Jeżeli nie jest, należy wyłączyć używanie pliku lub poddać go edycji i usunąć niewłaściwie rozpoznawane znaki. Rozpoznawanie dokumentu z użyciem niewłaściwego pliku uczenia może spowodować uzyskanie gorszych wyników niż rozpoznawanie go bez żadnego pliku.

  • Jeśli podczas korekty pomijanych jest zbyt wiele błędnych wyrazów, a jest załadowany słownik użytkownika, należy sprawdzić jego zawartość w oknie dialogowym Edytowanie słownika użytkownika. Należy usunąć ze słownika wszystkie błędne wyrazy, szczególnie te o niewłaściwej pisowni.

Właściwe wyznaczenie stref

  • Jeżeli strony są przetwarzane ręcznie, przed rozpoczęciem procesu OCR należy sprawdzić, czy strefy zostały właściwie wyznaczone.

  • W przypadku przetwarzania ręcznego należy wybrać ustawienie układu oryginału najbardziej optymalne dla bieżącego dokumentu. Należy sprawdzić poprawność wyników rozpoznawania. Jeżeli na niektórych stronach widoczne są usterki wynikające ze źle wyznaczonych stref, należy zmienić właściwości i/lub rozmieszczenie stref, a następnie rozpoznać te strony ponownie.

  • Należy upewnić się, że nie jest załadowany plik szablonu stref nieodpowiedni dla bieżących stron.

  • Aby zachować tekst pisany ręcznie, np. podpis, należy oznaczyć go jako srefę grafiki.

Używanie obrazów wysokiej jakości

  • Jeżeli strony są pobierane przez skanowanie dokumentów, należy starać się używać dokumentów oryginalnych. Najlepsze wyniki OCR osiąga się przy skanowaniu stron z drukiem wysokiej jakości. Dokładność rozpoznawania OCR może ulegać obniżeniu przy dokumentach gorszej jakości.

  • W przypadków oryginałów niskiej jakości lepsze wyniki rozpoznawania OCR może dać zeskanowanie wysokiej jakości kserokopii. Dotyczy to szczególnie dokumentów o niskim kontraście i dokumentów wydrukowanych na cienkim papierze. Jeśli jednak na kserokopii widoczne są smugi, paski lub kopia ma niejednorodną jasność, wyniki rozpoznawania będą znacznie gorsze.

  • Można poprosić nadawcę o wybór lepszej rozdzielczości przekazu faksem (Fine lub Best).

  • Na obrazach stron nie powinno być żadnych notatek, podkreśleń ani odręcznych uzupełnień. Wszelkie elementy niebędące znakami drukowanymi spowalniają proces rozpoznawania, mogą także uniemożliwić rozpoznanie znaków drukowanych. Takie oznaczenia nie powinny być uwzględniane w strefach. Można je ewentualnie umieścić w strefach ignorowanych

  • Tekst na obrazach stron powinien być możliwie wyraźny i przejrzysty. Znaki powinny być oddzielone od siebie, nie powinny się zlewać ani nakładać.

  • Jeżeli użytkownik ma wpływ na styl rozpoznawanych dokumentów, powinien unikać stosowania czcionek z podkreśleniem. Rozpoznawanie podkreślonego tekstu jest trudne, ponieważ linia pod znakami zmienia obraz ogonków w literach q, g, y, p oraz j.

  • Jeżeli niezadowalające wyniki rozpoznawania dotyczą plików obrazów, należy sprawdzić ich jakość i rozdzielczość, umieszczając kursor nad poszczególnymi miniaturami. Optymalną rozdzielczością dla zadań OCR jest 300 dpi. Obrazy o rozdzielczości niższej niż 200 dpi lub wyższej niż 400 dpi mogą powodować spadek dokładności rozpoznawania. Jeżeli dostępne są dokumenty na papierze, należy zeskanować je ponownie z lepszymi ustawieniami. W przeciwnym razie należy poprosić nadawcę plików o używanie rozdzielczości 300 dpi.

//

Poprawianie dokładności