Что такое OCR?
Оптическое распознавание символов (OCR) – это процесс извлечения текста из изображения страницы. Изображение страницы представляет собой электронное изображение текста и других возможных элементов (заголовков, изображений и др.). Изображения страниц могут получаться в результате сканирования бумажного документа или открытия файла изображения. Такие файлы можно получить по электронной почте, по факсу или с собственного сканера.
Эти изображения не содержат текста для редактирования. Они представляют собой множество точек (пикселей), которые все вместе образуют рисунок текста. С помощью распознавания происходит проверка изображения текста и создание текста, который можно редактировать на компьютере, без повторного набора вручную.
Изображение обрабатывается с помощью технологии оптического распознавания, и из него создается текст.
Во время распознавания программа OmniPage использует параметры, выбранные на на панели инструментов OmniPage для определения потока текста на странице, а также создает упорядоченные области вокруг частей страниц. Это позволяет определить, какие элементы будут распознаваться как текст, а какие — сохраняться как изображения. После распознавания получившийся текст можно сохранять в различных приложениях для обработки текста, электронных таблиц и макета документа.
Возможности распознавания в программе OmniPage
Помимо распознавания текста, программа OmniPage может сохранять при распознавании следующие элементы документа.
Изображения
Примерами изображений являются фотографии, логотипы и рисунки.
Форматирование текста
Типы, размеры и стили шрифтов (такие, как полужирный или курсив) являются примерами форматирования текстовых символов. Примерами форматирования абзаца являются интервалы между абзацами, отступы, табуляция, межстрочный интервал и выравнивание.
Форматирование страницы
Примерами форматирования страницы являются структура колонок, размещение абзацев, обработка таблиц и расположение изображений.
Режимы просмотра текстового редактора
Результаты распознавания отображаются в текстовом редакторе. В нем используются три вида, с помощью которых можно выбрать объем отображаемого форматирования.
-
Программа OmniPage распознает только печатные символы: например, напечатанный на принтере или машинописный текст. Рукописный текст (например, подпись) может сохраняться в виде изображения.
//