Asya dillerinde tanıma
Asya alfabelerinin kullanıldığı dört dil desteklenir: Japonca, Korece, Geleneksel Çince ve Basitleştirilmiş Çince. Gövde metni için ideal yazı tipi boyutu 300 dpi ile taranmış 12 nokta olup, yaklaşık 48 x 48 piksel boyutlarında karakterler elde edilir. En küçük boyut 30 x 30, yani 300 dpi ile 10,5 noktadır. Daha küçük karakterler için 400 dpi kullanılmalıdır.
Japonca ve Çince metinler yatay (soldan sağa) veya dikey (üstten alta, sağdan sola) olabilir; Korece metinler her zaman yataydır.
Örnek bir Çince metin: ve Korece metin
Japonca metin aşağıda gösterilmektedir.
OmniPage 18′in desteklediği işletim sistemleri Asya dillerini işleyebilir; ancak sistemin yüklenmesi sırasında Doğu Asya dil desteği seçilmemişse, Denetim Masası / Bölge ve Dil Ayarları / Diller / Ek dil desteği / Doğu Asya dilleri dosyaları yüklensin seçeneği kullanarak bu dil desteği eklenmelidir. Windows sistem diskini takmanız gerekebilir.
Bu dört Asya dili, Seçenekler/OCR bölmesinde diğer dillerle birlikte alfabetik olarak listelenir. Aynı anda bu dillerden yalnızca birini seçmeli ve diğer dillerle birlikte çoklu seçim yapmaktan kaçınmalısınız. Asya Dilinde OCR, İngilizce açıkça ayarlanmadığı halde, katıştırılmış kısa İngilizce metinleri işleyebilir; bu özellik uzun İngilizce metinlere veya diğer Batı dillerindeki metinlere yönelik olarak tasarlanmamıştır.
Japonca ve Çince dikey metinlerde farklı yönlerde İngilizce metin katıştırılmış olabilir:
Neon |
Sağ |
Yan yana |
|
|
|
|
Çıkış |
|
Program bunların tümünü işleyebilir; çıkışta sağa dönük olarak görünürler.
Dil doğrulaması
Dil listesinin yanında bulunan Dil seçeneklerini doğrula seçeneği, algılan dil ile dil ayarı arasındaki farklılıklar konusunda uyarıda bulunan otomatik dil algılama özelliğini başlatır. Bu özellik sayfa düzeyinde çalışır ve dört kategoriyi ayırt eder: Japonca, Çince, Kore dili ve Asya dili olmayan dil. Geleneksel Çince ile Basitleştirilmiş Çince’yi veya Asya dili olmayan dilleri birbirinden ayırmaz. Son kategori Japonca, Çince veya Kore dili karakterlerin algılanmadığı anlamına gelir. Doğrulama, görüntü ön işleme sırasında gerçekleştiğinden, gerekli tanıma dili görüntü yükleme işlemi öncesinde ayarlanmalıdır. En az birkaç satır metin ve en az miktarda katıştırılmış İngilizce metin olduğunda algılama daha sağlıklı sonuç verir.
Tek dil algılama
Asya dilleri, Tek dili otomatik olarak algıla seçeneğiyle işlenebilir. Bu kullanım, giriş belgelerinin farklı dillerde olabildiği durumlarda gözetimsiz işleme sırasında yarar sağlar. Bkz. OCR Seçenekleri. Algılama sırasında bu dillerin de dikkate alınmasını sağlamak için, açılan listede Asya dilleri veya Latin alfabesi ve Asya seçimini yapın. Bu seçenek ayarlandığında Dil seçeneklerini doğrula komutu kullanılamadığı gibi, ayrı dil tercihleri de yapılamaz.
Düzen ve bölge oluşturma
Asya dillerindeki sayfalar için otomatik düzen ve otomatik bölge oluşturma önerilir. Böylece algılanan tüm metinler metin bölgelerine yerleştirilir; bir Asya tanıma dili seçerek, Asya dilinde OCR’yi bu bölgelerde çalışacak ve metin yönünü otomatik olarak algılayıp ileterek sayfada karma halde bulunan yatay ve dikey metin alanlarıyla baş edebilecek şekilde ayarlarsınız.
Bununla birlikte, elle bölge oluşturma ile dikey Asya dilinde tanımayı zorlamak için bölge oluşturma aracı kullanılabilir. Lütfen bu araçla dikdörtgen bölgeler çizin. Asya dillerindeki yatay metinleri elle bölgelere ayırmak için, normal metin bölgesi türünü kullanın. Diğer iki dikey metin aracını Asya dillerindeki metinler üzerinde kullanmayın. Dikey bir Asya dili bölgesi çizilmesi, bir Asya dilini otomatik olarak etkinleştirmediği gibi, dilin otomatik olarak algılanmasını da etkilemez.
Dijital kamera görüntüleri
Asya dilleri için bu görüntüler kabul edilir. Ancak, otomatik 3B eğrilik düzeltme algoritmasının yararlı olması pek mümkün değildir (dikey metinler için kesinlikle değil). Tercihen, standart görüntü yükleme komutunu kullanın ve gerekirse uygun SET aracıyla kendiniz 3B eğrilik düzeltmesi yapın. Genel olarak, SET araçları Asya dili görüntüleri üzerinde kullanılabilir.
Metin Düzenleyicisi’nde Asya dillerindeki metinler
Tanınan Asya dillerindeki sayfalar, sisteminizde Doğu Asya dilleri desteği bulunması koşuluyla Metin Düzenleyicisi’nde görünür (her zaman yatay metin yönünde). Seçenekler/OCR altında Asya dili yazı tiplerini belirtmeye gerek yoktur; otomatik olarak varsayılan bir yazı tipi (tipik olarak Arial Unicode MS) uygulanır. Sisteminizdeki yazı tiplerinden Asya dillerini destekleyen diğer yazı tipleri Metin Düzenleyicisi’nde seçilebilir. Asya dili desteği olmayan bir yazı tipi seçilirse, Asya dillerindeki karakterlerin yerini dikdörtgenler alır.
Düzenleyici desteği metin görüntüleme ve doğrulama olanağı sağlar; dikey metinler için True Page kullanmaktan kaçının. Büyük ölçekli düzenleme ve yazım denetimi işlemleri hedef uygulamada daha iyi yapılır. Asya dillerindeki metinler için yazım denetimi, eğitim ve sözlük desteği kullanılamaz. Bu nedenle, Asya dilinde OCR yapmadan önce Seçenekler altında Yazım Denetimi bölmesine gidin ve sözlükte olmayan sözcükleri işaretleme, otomatik yazım denetimi ve IntelliTrain özelliklerini devre dışı bırakın; ayrıca yüklü hiçbir eğitim dosyası bulunmadığından emin olun. Asya dillerindeki metinlere, seçim veya arama yaparak düzeltme uygulanabilir.
Asya dilinde çıkış
Asya dillerindeki metinler için tipik çıkış dönüştürücüleri RTF, Microsoft Word, Aranabilir PDF veya XPS’tir. Dışa aktarma için True Page veya Akan Sayfa ayarlanmış olması koşuluyla, ön işleme sırasında algılanan metin yönü çıkış dosy
asına uygulanır. Metinlerin her zaman yatay olduğu Metin Düzenleyicisi’nde yapılan değişiklikler de yine dikey metin olarak dışa aktarılır. Düz Metin dönüştürücüleri kullanılabilir (Unicode TXT, Not Defteri), ancak bu durumda metin yönü her zaman yatay olur.
-
Form Verilerini Alıntılama iş akışı adımı, Asya dilindeki sayfalara uygulanmamalıdır.
-
Asya dillerindeki dikey metinleri işlerken, Metin Düzenleyicisi’nde sonuçları görüntülemek için en iyi ayarın Biçimlendirilmiş Metin olduğunu, ancak dışa aktarmak için True Page veya Akan Sayfa biçimlendirme düzeylerinin kullanılması gerektiğini unutmayın.