Повышение точности распознавания

Рекомендации этого раздела помогут повысить точность распознавания в программе OmniPage.

Установка параметров, повышающих точность распознавания, в окне «Параметры»

В меню «Сервис» выберите пункт Параметры или нажмите кнопку Omnipage tb st options Повышение точности распознавания на стандартной панели инструментов. В окне «Параметры» выберите вкладку с параметрами, которые нужно изменить:

  • Выберите Точность в разделе Оптимизировать распознавание по… на панели «Распознавание».

  • Отрегулируйте яркость и контрастность на панели «Сканер». Чтобы просмотреть пример оптимальной яркости, щелкните здесь.

  • Оптимизируйте изображения для распознавания с помощью инструментов оптимизации изображения.

  • Самая высокая точность распознавания обеспечивается при черно-белом сканировании документов хорошего качества, напечатанных черным шрифтом на белом фоне. Если текст напечатан на цветном или сером фоне, рекомендуется выбирать сканирование в оттенках серого. Этот же режим рекомендуется для блеклых документов с низкой или неоднородной контрастностью.

  • Выберите Файл эталона на панели «Проверка», чтобы использовать файл эталонов символов для распознавания специальных или стилизованных символов. Дополнительные сведения см. в разделе Файлы эталонов. Эта функция неприменима к азиатским языкам.

Использование средств, облегчающих распознавание

  • Если документ длинный, а подходящий файл эталона отсутствует, создайте эталоны для нескольких типовых страниц. Включите функцию IntelliTrain на панели «Проверка» диалогового окна «Параметры», а затем выполните распознавание трех или четырех страниц и проверьте текст. Оцените качество эталона в диалоговом окне «Изменение эталона», а затем сохраните его в файл.

  • Если файл эталона загружен, но при распознавании получены неудовлетворительные результаты, проверьте его содержимое в диалоговом окне «Изменение эталона». Убедитесь, что эталон соответствует текущему документу. Если это не так, выгрузите файл эталона или измените его содержимое так, чтобы плохо пропечатанные символы не входили в эталон. Использование неподходящего эталона может привести к худшему результату распознавания, чем отсутствие эталона.

  • Если при проверке загружен пользовательский словарь, но пропущено очень много неприменимых слов, проверьте его содержимое с помощью диалогового окна «Изменение пользовательского словаря». Удалите неподходящие словарные статьи, особенно статьи с ошибками в словах.

Правильное определение областей

  • При обработке страницы вручную перед распознаванием необходимо проверить разметку областей.

  • При автоматической обработке необходимо убедиться, что параметры исходного макета оптимальны для этого документа. Проверьте результат распознавания. Если ошибки распознавания вызваны неправильной разметкой областей, измените тип или расположение областей и повторно распознайте необходимые страницы.

  • Убедитесь в том, что загруженный файл шаблона областей подходит для текущих страниц.

  • Для сохранения рукописного текста (например, подписи) выделите его как область изображения.

Использование изображений высокого качества

  • Рекомендуется по возможности сканировать оригиналы документов. Отсканированные типографские страницы с качественной печатью распознаются лучше всего. Точность распознавания страниц более низкого качества будет меньшей.

  • Иногда хорошая ксерокопия низкокачественного документа может дать лучший результат, чем оригинал. Это возможно при работе с документами, напечатанными с низкой контрастностью или на тонкой бумаге. С другой стороны, копии низкого качества с полосами, пятнами и неоднородной яркостью обычно распознаются хуже оригинала.

  • Просите отправителей выбирать высокое или наивысшее качество передачи факса.

  • На страницах не должно быть пометок, линий или рисунков на полях. Все элементы страницы, не являющиеся печатными символами, замедляют распознавание, и любая пометка может сделать символ нераспознаваемым. Постарайтесь исключить эти пометки при разметке областей или включите их в область пропуска.

  • Текст на странице должен быть достаточно чистым и четким. Символы должны быть отделены друг от друга, не должны сливаться и перекрываться.

  • Если есть возможность выбирать стиль документа, предназначенного для распознавания, старайтесь избегать подчеркивания текста. Подчеркивание затрудняет распознавание, так как изменяет форму некоторых символов (например, «р», «у», «ф», «ц» и «щ»).

  • В случае неудовлетворительных результатов распознавания файла проверьте качество и разрешение изображения, наведя курсор на миниатюру изображения. Оптимальным для распознавания является разрешение 300 точек на дюйм. Изображения с разрешением ниже 200 и выше 400 точек на дюйм, вероятно, будут распознаны значительно хуже. При наличии бумажных оригиналов документов отсканируйте их заново с другим разрешением. Если оригиналов нет, попросите людей, предоставивших изображения, использовать разрешение 300 точек на дюйм.

//

Повышение точности распознавания