Повышение точности распознавания
Рекомендации этого раздела помогут повысить точность распознавания в программе OmniPage.
Установка параметров, повышающих точность распознавания, в окне «Параметры»
В меню «Сервис» выберите пункт Параметры или нажмите кнопку на стандартной панели инструментов. В окне «Параметры» выберите вкладку с параметрами, которые нужно изменить:
-
Выберите Точность в разделе Оптимизировать распознавание по… на панели «Распознавание».
-
Отрегулируйте яркость и контрастность на панели «Сканер». Чтобы просмотреть пример оптимальной яркости, щелкните здесь.
-
Оптимизируйте изображения для распознавания с помощью инструментов оптимизации изображения.
-
Самая высокая точность распознавания обеспечивается при черно-белом сканировании документов хорошего качества, напечатанных черным шрифтом на белом фоне. Если текст напечатан на цветном или сером фоне, рекомендуется выбирать сканирование в оттенках серого. Этот же режим рекомендуется для блеклых документов с низкой или неоднородной контрастностью.
-
Выберите Файл эталона на панели «Проверка», чтобы использовать файл эталонов символов для распознавания специальных или стилизованных символов. Дополнительные сведения см. в разделе Файлы эталонов. Эта функция неприменима к азиатским языкам.
Использование средств, облегчающих распознавание
-
Если документ длинный, а подходящий файл эталона отсутствует, создайте эталоны для нескольких типовых страниц. Включите функцию IntelliTrain на панели «Проверка» диалогового окна «Параметры», а затем выполните распознавание трех или четырех страниц и проверьте текст. Оцените качество эталона в диалоговом окне «Изменение эталона», а затем сохраните его в файл.
-
Если файл эталона загружен, но при распознавании получены неудовлетворительные результаты, проверьте его содержимое в диалоговом окне «Изменение эталона». Убедитесь, что эталон соответствует текущему документу. Если это не так, выгрузите файл эталона или измените его содержимое так, чтобы плохо пропечатанные символы не входили в эталон. Использование неподходящего эталона может привести к худшему результату распознавания, чем отсутствие эталона.
-
Если при проверке загружен пользовательский словарь, но пропущено очень много неприменимых слов, проверьте его содержимое с помощью диалогового окна «Изменение пользовательского словаря». Удалите неподходящие словарные статьи, особенно статьи с ошибками в словах.
Правильное определение областей
-
При обработке страницы вручную перед распознаванием необходимо проверить разметку областей.
-
При автоматической обработке необходимо убедиться, что параметры исходного макета оптимальны для этого документа. Проверьте результат распознавания. Если ошибки распознавания вызваны неправильной разметкой областей, измените тип или расположение областей и повторно распознайте необходимые страницы.
-
Убедитесь в том, что загруженный файл шаблона областей подходит для текущих страниц.
-
Для сохранения рукописного текста (например, подписи) выделите его как область изображения.
Использование изображений высокого качества
-
Рекомендуется по возможности сканировать оригиналы документов. Отсканированные типографские страницы с качественной печатью распознаются лучше всего. Точность распознавания страниц более низкого качества будет меньшей.
-
Иногда хорошая ксерокопия низкокачественного документа может дать лучший результат, чем оригинал. Это возможно при работе с документами, напечатанными с низкой контрастностью или на тонкой бумаге. С другой стороны, копии низкого качества с полосами, пятнами и неоднородной яркостью обычно распознаются хуже оригинала.
-
Просите отправителей выбирать высокое или наивысшее качество передачи факса.
-
На страницах не должно быть пометок, линий или рисунков на полях. Все элементы страницы, не являющиеся печатными символами, замедляют распознавание, и любая пометка может сделать символ нераспознаваемым. Постарайтесь исключить эти пометки при разметке областей или включите их в область пропуска.
-
Текст на странице должен быть достаточно чистым и четким. Символы должны быть отделены друг от друга, не должны сливаться и перекрываться.
-
Если есть возможность выбирать стиль документа, предназначенного для распознавания, старайтесь избегать подчеркивания текста. Подчеркивание затрудняет распознавание, так как изменяет форму некоторых символов (например, «р», «у», «ф», «ц» и «щ»).
-
В случае неудовлетворительных результатов распознавания файла проверьте качество и разрешение изображения, наведя курсор на миниатюру изображения. Оптимальным для распознавания является разрешение 300 точек на дюйм. Изображения с разрешением ниже 200 и выше 400 точек на дюйм, вероятно, будут распознаны значительно хуже. При наличии бумажных оригиналов документов отсканируйте их заново с другим разрешением. Если оригиналов нет, попросите людей, предоставивших изображения, использовать разрешение 300 точек на дюйм.
//