Riconoscimento delle in lingue dell’Asia orientale

Vengono supportati gli alfabeti di tre lingue dell’Asia orientale: giapponese, coreano e cinese. La dimensione di carattere ideale per il corpo del testo è di 12 punti che, digitalizzato a 300 dpi, genera caratteri di circa 48 x 48 pixel. Il minimo è 30 x 30, ovvero 10,5 punti a 300 dpi. Per caratteri più piccoli, usare 400 dpi.

I testi in giapponese e cinese possono essere scritti orizzontalmente (senso di lettura da sinistra a destra) o verticalmente (senso di lettura dall’alto in basso, da destra a sinistra); i testi in coreano sono sempre orizzontali.

Ecco un esempio di testo cinese: Omnipage chinese sample Riconoscimento delle lingue dellAsia orientale e di testo coreano Omnipage korean sample Riconoscimento delle lingue dellAsia orientale

Di seguito è mostrato il testo in giapponese.

I sistemi operativi supportati da OmniPage 18 possono gestire le lingue dell’Asia orientale, ma se il relativo supporto non è stato selezionato durante l’installazione del sistema operativo, deve essere aggiunto da Pannello di controllo / Opzioni internazionali e della lingua / Lingue / Supporto lingua supplementare / Installa i file delle lingue dell’Asia orientale. Può essere necessario inserire un CD di Windows.

Le lingue dell’Asia orientale sono elencate in senso alfabetico con le altre nel pannello Opzioni/OCR. Selezionare solo una di queste lingue alla volta ed evitare una selezione multipla con altre lingue. L’OCR delle lingue dell’Asia orientale può gestire brevi testi incorporati in inglese senza che questa lingua sia esplicitamente impostata; questa funzione non è concepita per lunghi testi in inglese.

 

Il testo verticale in giapponese e cinese può integrare testo in inglese con orientamenti diversi.

Neon

A destra

Affiancato

Omnipage asian vertical neon Riconoscimento delle lingue dellAsia orientale

Omnipage asian vertical right Riconoscimento delle lingue dellAsia orientale

Omnipage asian vertical sidebyside Riconoscimento delle lingue dellAsia orientale

 

Output

 

Il programma è in grado di gestirli e nell’output appaiono ruotati a destra.

Verifica delle lingue

Oltre a visualizzare l’elenco delle lingue, l’opzione Verifica scelte linguistiche attiva il riconoscimento automatico della lingua che segnala le differenze tra una lingua rilevata e l’impostazione della lingua. Funziona a livello di pagina e individua quattro categorie: giapponese, cinese, coreano e lingua diversa da quelle dell’Asia orientale. Non può distinguere tra cinese tradizionale e semplificato o tra lingue non estremo orientali. L’ultima categoria significa che i caratteri negli alfabeti giapponesi, cinese o coreano non vengono rilevati. La verifica ha luogo durante l’elaborazione preventiva delle immagini, pertanto la lingua di riconoscimento necessaria deve essere impostata prima del caricamento delle immagini. Il rilevamento fornisce risultati migliori con più righe di testo e il testo inglese incorporato ridotto al minimo.

Rilevamento di una singola lingua

Le lingue dell’Asia orientale possono essere elaborate con l’opzione Rileva automaticamente singola lingua. Questa funzionalità è utile per l’elaborazione senza interazione con l’utente quando i documenti di input possono essere in lingue diverse. Vedere Opzioni di OCR. Scegliere Lingue dell’Asia orientale o Alfabeti latino e asiatici nell’elenco a discesa affinché queste lingue vengano prese in considerazione durante il rilevamento. Non è possibile usare Verifica scelte linguistiche quando questa opzione è impostata, né è possibile effettuare singole scelte linguistiche.

Layout e definizione delle aree

Per le pagine in lingue dell’Asia orientale si consigliano il layout automatico e la definizione automatica delle aree. In questo modo tutti i testi rilevati vengono collocati in aree di testo. Scegliendo una lingua di riconoscimento dell’Asia orientale s’imposta l’esecuzione dell’OCR delle lingue dell’Asia orientale in queste aree, il quale può automaticamente rilevare e riprodurre la direzione del testo, gestendo pagine con aree miste di testi orizzontali e verticali.

Lo strumento di definizione delle aree Omnipage zone asian vertical Riconoscimento delle lingue dellAsia orientale può essere usato per forzare il riconoscimento verticale delle lingue dell’Asia orientale con la definizione manuale delle aree. Definire aree rettangolari con questo strumento. Per definire manualmente il testo orizzontale in lingue dell’Asia orientale, usare l’abituale tipo di area di testo. Non usare gli altri due strumenti per i testi verticali su testi in lingue dell’Asia orientale. La definizione di un’area verticale in testi in lingue dell’Asia orientale non attiva automaticamente una lingua di questa regione, né influisce sul rilevamento automatico della lingua.

Immagini di fotocamere digitali

Vengono accettate per le lingue dell’Asia orientale. L’algoritmo automatico di raddrizzamento 3D è probabilmente inutile, certamente non serve per i testi verticali. Usare preferibilmente il comando di caricamento delle immagini standard ed eseguire il raddrizzamento 3D manuale con l’eventuale strumento SET pertinente. In genere è possibile usare gli strumenti SET su immagini contenenti testi in lingue dell’Asia orientale.

Lingue dell’Asia orientale nell’editor di testo

Le pagine riconosciute in lingue dell’Asia orientale vengono visualizzate nell’editor di testo, sempre con la direzione del testo orizzontale, purché il sistema supporti tali lingue. Non è necessario specificare i caratteri delle lingue dell’Asia orientale in Opzioni/OCR; verrà applicato automaticamente un carattere predefinito, in genere Arial Unicode MS. Nell’editor di testo è possibile scegliere altri caratteri compatibili con le lingue dell’Asia orientale installate nel sistema. Se è stato selezionato un carattere non supportato nelle lingue dell’Asia orientale, i caratteri asiatici verranno sostituiti da rettangoli.

Il supporto dell’editor consente la visualizzazione e la verifica del testo: evitare di usare True Page per i testi verticali. Le modifiche sostanziali e il controllo ortografico vengono eseguite meglio nell’applicazione di destinazione. Il controllo ortografico, il training e il supporto dei dizionari non sono disponibili per i testi in lingue dell’Asia orientale. Pertanto, prima di eseguire OCR di testi in lingue dell’Asia orientale, aprire il pannello Controllo ortografico in Opzioni e disattivare la marcatura delle parole del dizionario, la verifica automatica e IntelliTrain, infine controllare c
he non sia caricato alcun file di training. Ai testi scritti nelle lingue dell’Asia orientale è possibile applicare l’oscuramento, sia mediante selezione che ricerca.

Output in lingue dell’Asia orientale

I convertitori di output tipici per i testi in lingue dell’Asia orientale sono RTF, Microsoft Word, XPS e PDF ricercabile. La direzione del testo che è stata rilevata durante l’elaborazione preventiva verrà applicata al file di output, purché True Page o Pagina continua siano impostati per l’esportazione. Le modifiche apportate nell’editor di testo (dove il testo è sempre orizzontale) verranno esportate, anche nel caso di testo verticale. Sono disponibili convertitori in testo normale (Unicode TXT, Blocco note) ma la direzione del testo sarà sempre orizzontale.

 

  • Il passaggio Estrazione dei dati dai moduli del flusso di lavoro non dovrebbe essere applicato alle pagine in lingue dell’Asia orientale.

 

  • Quando si gestisce il testo verticale in lingue dell’Asia orientale, l’impostazione Testo formattato è la migliore per visualizzare i risultati nell’editor di testo, ma per l’esportazione devono essere usati i livelli di formattazione True Page o Pagina continua.

Riconoscimento delle lingue dell’Asia orientale