Che cosa è l’OCR?
Il riconoscimento ottico dei caratteri (OCR, Optical Character Recognition) è il processo di estrazione del testo dall’immagine di una pagina. Questa immagine è una rappresentazione elettronica del testo e di eventuali altri elementi, come intestazioni e grafica, presenti sulla pagina. L’immagine può essere ottenuta acquisendo un documento su carta con lo scanner o aprendo un file di immagini elettronico. Questi file possono essere ricevuti con la posta elettronica, via fax o dallo scanner.
Le immagini non hanno caratteri di testo modificabili; esse sono composte da piccoli punti (pixel) che insieme formano una rappresentazione grafica del testo. Il processo OCR riconosce l’immagine del testo e la converte in testo modificabile dal computer, eliminando la necessità di digitarlo di nuovo.
L’OCR parte dall’immagine: e la trasforma in testo:
Durante l’OCR, OmniPage usa le impostazioni selezionate nel Gruppo strumenti OmniPage per determinare il flusso del testo su una pagina, e crea aree ordinate intorno alle varie parti di una pagina, per identificare ciò che deve essere riconosciuto come testo o conservato come grafica. Dopo l’OCR, il testo risultante può essere esportato in varie applicazioni per elaborazione di testi, desktop publishing o fogli di calcolo.
Le funzionalità OCR di OmniPage
Oltre al riconoscimento di testi, OmniPage durante l’OCR può conservare i seguenti elementi di un documento.
Immagini
Fotografie, marchi e disegni sono esempi di elementi grafici.
Formattazione del testo
Tipi, dimensioni e stili dei caratteri (come grassetto o corsivo) sono esempi di formattazione dei caratteri di testo. La spaziatura tra i paragrafi, rientri, tabulazioni, interlinee e allineamento sono esempi di formattazione dei paragrafi.
Formattazione delle pagine
La struttura a colonne, la gestione delle tabelle e la disposizione dei paragrafi e degli elementi grafici sono esempi di formattazione delle pagine.
Viste dell’editor di testo
I risultati del riconoscimento vengono collocati nell’editor di testo. Questo offre tre viste e permette di definire il livello di formattazione che si vuole visualizzare.
-
OmniPage riconosce soltanto i caratteri stampati, come il testo stampato con una stampante laser o dattiloscritto. Può tuttavia conservare un testo scritto a mano, per esempio una firma, come elemento grafico.
//