Co to jest OCR?

OCR to skrót od angielskiego terminu optical character recognition (optyczne rozpoznawanie znaków) i oznacza proces polegający na wyodrębnianiu tekstu z obrazu strony. Obraz strony to elektroniczna ilustracja tekstu oraz innych elementów, takich jak nagłówki lub grafika. Obraz strony może powstać w wyniku zeskanowania papierowego dokumentu lub otwarcia elektronicznego pliku obrazu. Pliki takie można otrzymać pocztą elektroniczną, faksem, mogą też pochodzić z samego skanera.

Obrazy takie nie zawierają możliwych do edycji znaków tekstowych, lecz bardzo dużą liczbę drobnych punktów (pikseli), które tworzą obraz tekstu. Proces OCR polega na analizie takiego obrazu i tworzeniu na jego podstawie tekstu możliwego do edycji na komputerze, co eliminuje potrzebę przepisywania tekstu ręcznie.

Proces OCR analizuje obraz:Omnipage s Co to jest OCR? i tworzy na jego podstawie tekst: Omnipage s2 Co to jest OCR?

Podczas procesu OCR program OmniPage korzysta z ustawień wybranych w przyborniku OmniPage, aby określić przepływ tekstu na stronie, i tworzy w odpowiedniej kolejności strefy wokół obszarów strony w celu zidentyfikowania elementów do rozpoznania jako tekst lub zachowania w postaci grafiki. Po zakończeniu procesu OCR uzyskany tekst można zapisać w wielu różnorodnych programach do edycji tekstów lub arkuszach kalkulacyjnych.

Możliwości technologii OCR w programie OmniPage

Podczas procesu OCR program OmniPage może też, oprócz rozpoznawania tekstu, zachowywać następujące elementy dokumentu.

Grafika

Zdjęcia, logo czy rysunki to przykłady elementów graficznych.

Formatowanie tekstu

Kroje, style i rozmiary czcionek (np. pogrubienie lub kursywa) to przykłady formatowania znaków. Odstęp pomiędzy akapitami, wcięcia, tabulatory, interlinia oraz wyrównywanie to z kolei przykłady formatowania akapitu.

Formatowanie stron

Struktura szpalt, rozmieszczenie akapitów, obsługa tabel oraz położenie elementów graficznych to przykłady formatowania strony.

Widoki Edytora tekstu

Wyniki rozpoznawania są umieszczane w Edytorze tekstu. Udostępnia on trzy widoki i pozwala określić zakres formatowania do wyświetlenia.

  • Program OmniPage rozpoznaje jedynie znaki drukowane, np. wydruki laserowe lub tekst napisany na maszynie do pisania. Tekst odręczny, np. podpis, może jednak zostać zachowany jako grafika.

//

Co to jest OCR?