Miglioramento della precisione

Questi consigli hanno lo scopo di migliorare la precisione dell’OCR in OmniPage.

Selezionare impostazioni per il miglioramento della precisione nella finestra di dialogo Opzioni

Scegliere Opzioni nel menu Strumenti o fare clic su Omnipage tb st options Miglioramento della precisione nella barra degli strumenti Standard. Quindi nella finestra di dialogo Opzioni fare clic sulla scheda delle impostazioni da modificare:

  • Selezionare Precisione in Ottimizza processo OCR per… nella scheda OCR.

  • Regolare i comandi a scorrimento Luminosità e Contrasto nella scheda Scanner. Fare clic qui per un esempio di luminosità ottimale.

  • Per migliorare le immagini per l’OCR usare gli strumenti SET.

  • Se l’unico criterio determinante è la precisione dell’OCR, si consiglia la digitalizzazione in bianco e nero per documenti di buona qualità con testo nero nitido su fondo bianco. Scegliere la digitalizzazione in scala di grigi per pagine con testo su sfondo colorato o ombreggiato, o per documenti degradati con contrasto basso o variabile.

  • Selezionare File di training nel pannello Controllo ortografico per usare un file di training di caratteri e facilitare il riconoscimento durante l’OCR di caratteri speciali o stilizzati. Per ulteriori informazioni vedere File di training. Questa funzionalità non riguarda le lingue dell’Asia orientale.

Usare sussidi appropriati per il riconoscimento

  • Se si intende digitalizzare un documento lungo e non si dispone di un file di training appropriato, fare un training preliminare su alcune pagine rappresentative. Attivare IntelliTrain nel pannello Controllo ortografico della finestra di dialogo Opzioni, quindi riconoscere tre o quattro pagine ed eseguire la correzione del testo. Controllare la qualità del training nella finestra di dialogo Modifica training, quindi salvarlo in un file.

  • Se si ottengono risultati insoddisfacenti con un file di training caricato, controllarne il contenuto nella finestra di dialogo Modifica training. Accertarsi che sia appropriato per il documento corrente. In caso contrario, scaricare il file o modificarne il contenuto, per rimuovere il training da forme di caratteri incomplete. Un training non appropriato può dare risultati peggiori che la mancanza totale di training.

  • Se il controllo ortografico salta troppe parole non corrette ed è caricato un dizionario utente, controllarne il contenuto mediante la finestra di dialogo Modifica dizionario utente. Eliminare eventuali voci aggiunte per sbaglio, specialmente parole con errori di ortografia.

Identificare correttamente le aree

  • Quando si elaborano le pagine manualmente, accertarsi che le aree siano identificate correttamente prima dell’OCR.

  • Quando si elaborano le pagine automaticamente, accertarsi che l’impostazione del layout originale sia la più adatta per il documento. Esaminare i risultati del riconoscimento. Se ci sono difetti dovuti a una definizione impropria delle aree, modificare le proprietà e/o le posizioni delle aree e riconoscere di nuovo le pagine interessate.

  • Verificare che non sia caricato un file di modello delle aree non appropriato per le pagine correnti.

  • Per conservare del testo manoscritto, ad esempio una firma, identificarlo come area grafica.

Usare immagini di qualità elevata

  • Per quanto possibile, digitalizzare le pagine originali. Le immagini di pagine con caratteri di stampa di alta qualità permettono di raggiungere la migliore precisione dell’OCR. Con pagine di qualità inferiore, la precisione dell’OCR può diminuire.

  • Se gli originali sono di scarsa qualità, a volte una buona fotocopia può dare risultati dell’OCR migliori. Questo vale per documenti con basso contrasto o stampati su carta sottile. D’altra parte, le fotocopie di scarsa qualità, che presentano strisce, macchie o luminosità non uniforme, danno in genere risultati peggiori.

  • Chiedere ai mittenti di inviare i fax usando le modalità Fine o Migliore.

  • Le immagini delle pagine devono essere prive di note, righe o scarabocchi. Eventuali segni che non fanno parte dei caratteri stampati rallentano il riconoscimento e possono rendere irriconoscibili i caratteri. Cercare di escludere questi segni dalle aree, oppure includerli in un’area da ignorare.

  • Il testo nelle immagini delle pagine deve essere sufficientemente chiaro e nitido. I caratteri devono essere ben distinti e non sovrapposti o troppo ravvicinati.

  • Se possibile, evitare i caratteri sottolineati, che complicano il riconoscimento del testo. Infatti la sottolineatura cambia l’aspetto delle aste discendenti delle lettere q, g, y, p e j.

  • Se si ottengono risultati insoddisfacenti con file di immagini, controllarne la qualità e la risoluzione portando il cursore sulle rispettive miniature. La risoluzione ottimale per l’OCR è 300 dpi. Le immagini con risoluzione minore di 200 dpi o maggiore di 400 dpi danno in genere una precisione molto inferiore. Nel caso dei documenti su carta, digitalizzarli di nuovo con impostazioni appropriate. Altrimenti, chiedere a chi fornisce le immagini di usare la risoluzione di 300 dpi.

//

Miglioramento della precisione