Что такое OCR?

Оптическое распознавание символов (OCR) – это процесс извлечения текста из изображения страницы. Изображение страницы представляет собой электронное изображение текста и других возможных элементов (заголовков, изображений и др.). Изображения страниц могут получаться в результате сканирования бумажного документа или открытия файла изображения. Такие файлы можно получить по электронной почте, по факсу или с собственного сканера.

Эти изображения не содержат текста для редактирования. Они представляют собой множество точек (пикселей), которые все вместе образуют рисунок текста. С помощью распознавания происходит проверка изображения текста и создание текста, который можно редактировать на компьютере, без повторного набора вручную.

Изображение обрабатывается с помощью технологии оптического распознавания,Omnipage s Что такое OCR? и из него создается текст. Omnipage s2 Что такое OCR?

Во время распознавания программа OmniPage использует параметры, выбранные на на панели инструментов OmniPage для определения потока текста на странице, а также создает упорядоченные области вокруг частей страниц. Это позволяет определить, какие элементы будут распознаваться как текст, а какие — сохраняться как изображения. После распознавания получившийся текст можно сохранять в различных приложениях для обработки текста, электронных таблиц и макета документа.

Возможности распознавания в программе OmniPage

Помимо распознавания текста, программа OmniPage может сохранять при распознавании следующие элементы документа.

Изображения

Примерами изображений являются фотографии, логотипы и рисунки.

Форматирование текста

Типы, размеры и стили шрифтов (такие, как полужирный или курсив) являются примерами форматирования текстовых символов. Примерами форматирования абзаца являются интервалы между абзацами, отступы, табуляция, межстрочный интервал и выравнивание.

Форматирование страницы

Примерами форматирования страницы являются структура колонок, размещение абзацев, обработка таблиц и расположение изображений.

Режимы просмотра текстового редактора

Результаты распознавания отображаются в текстовом редакторе. В нем используются три вида, с помощью которых можно выбрать объем отображаемого форматирования.

  • Программа OmniPage распознает только печатные символы: например, напечатанный на принтере или машинописный текст. Рукописный текст (например, подпись) может сохраняться в виде изображения.

//

Что такое OCR?