Reconnaissance des langues asiatiques

Quatre langues basées sur des alphabets asiatiques sont prises en charge, à savoir : le japonais, le coréen, le chinois traditionnel et le chinois simplifié. Pour les textes écrits dans ces langues, la taille de police idéale est de 12 points numérisés avec une résolution de 300 ppp, ce qui génère des caractères d’environ 48 x 48 pixels. La taille minimale des caractères est de 30 x 30 pixels, ce qui correspond à une taille de police de 10,5 points numérisés à 300 ppp. Si votre texte comporte des caractères plus petits, nous vous recommandons d’utiliser une résolution de numérisation de 400 ppp.

Les textes en japonais et en chinois peuvent être horizontaux (de gauche à droite) ou verticaux (de haut en bas, de droite à gauche) ; le texte en coréen est toujours horizontal.

Voici un exemple de texte en chinois : Omnipage chinese sample Reconnaissance des langues asiatiques et de texte en coréen : Omnipage korean sample Reconnaissance des langues asiatiques

Vous trouverez ci-dessous un exemple de texte en japonais.

Les systèmes d’exploitation pris en charge par OmniPage 18 peuvent gérer les langues asiatiques, à condition que la prise en charge des langues d’Extrême-Orient ait été sélectionnée durant l’installation du système. Si tel n’est pas le cas, vous devez l’ajouter en sélectionnant Panneau de configuration > Options régionales et linguistiques > Langues > Prise en charge de langues supplémentaires > Installer les fichiers pour les langues d’Extrême-Orient. Vous devrez peut-être insérer un disque système Windows.

Les quatre langues asiatiques sont répertoriées dans la liste alphabétique des langues prises en charge disponible dans l’onglet OCR de la boîte de dialogue Options. Ne sélectionnez qu’une seule de ces langues à la fois et évitez toute sélection multiple avec d’autres langues. L’OCR des langues asiatiques peut reconnaître de courts passages de texte en anglais, sans que cette langue n’ait été configurée de façon explicite. Toutefois, cette possibilité ne s’applique pas aux passages plus longs ou aux autres langues occidentales.

 

En japonais comme en chinois, certains textes verticaux peuvent incorporer des caractères latins, dans différentes orientations :

Néon

À droite

Côte à côte

Omnipage asian vertical neon Reconnaissance des langues asiatiques

Omnipage asian vertical right Reconnaissance des langues asiatiques

Omnipage asian vertical sidebyside Reconnaissance des langues asiatiques

 

Sortie

 

Le programme peut gérer toutes ces dispositions en entrée. Toutefois, dans le document en sortie, les caractères latins sont toujours pivotés vers la droite.

Vérification des langues sélectionnées

L’option Vérifier les choix de langues, située en regard de la liste des langues, active la détection automatique des langues et vous avertit si la langue détectée est différente de la langue paramétrée. Cette option fonctionne page par page, et identifie quatre catégories de langues : japonais, chinois, coréen et « non asiatique ». Elle ne permet pas de distinguer le chinois traditionnel du chinois simplifié, ni les langues non asiatiques entre elles. La catégorie « non asiatique » signifie qu’aucun caractère japonais, chinois ou coréen n’a été détecté. Cette vérification ayant lieu lors du prétraitement de l’image, la langue de reconnaissance requise doit être définie avant le chargement de l’image. La détection sera d’autant plus fiable que le document comportera plusieurs lignes de texte à reconnaître et un minimum de lignes de texte en anglais.

Choix d’une langue unique

L’option Choix auto. d’une langue unique prend en charge les langues asiatiques. Cette option s’avère particulièrement utile pour les traitements autonomes de documents susceptibles d’être rédigés dans différentes langues. Consultez la rubrique Options d’OCR. Choisissez Langues asiatiques ou Alphabet latin et Langues asiatiques dans la liste déroulante pour faire en sorte que les langues correspondantes soient prises en compte lors de la détection. Lorsque cette option est sélectionnée, vous ne pouvez pas définir de langues manuellement, ni utiliser la fonction Vérifier les choix de langues.

Mise en page et traçage des zones

Les options de mise en page et de traçage automatique des zones sont recommandées pour les pages en langue asiatique. Tous les éléments de texte détectés seront ainsi placés dans des zones de texte. Si vous choisissez une langue de reconnaissance asiatique, l’OCR des caractères asiatiques sera exécuté dans ces zones. Il détectera et transmettra automatiquement l’orientation du texte et pourra gérer les zones mixtes de la page comportant à la fois du texte horizontal et vertical.

L’outil de traçage des zones Omnipage zone asian vertical Reconnaissance des langues asiatiques peut toutefois être utilisé pour forcer la reconnaissance de texte vertical asiatique à l’aide du traçage manuel des zones. Utilisez cet outil pour tracer des zones rectangulaires. Pour tracer manuellement des zones dans un texte asiatique horizontal, utilisez le type de zone Texte habituel. N’utilisez pas les deux autres outils Texte vertical sur des textes asiatiques. Le fait de tracer une zone verticale sur des caractères asiatiques n’active pas automatiquement l’OCR de la langue asiatique ou la détection automatique de la langue.

Images d’un appareil photo numérique

Le programme permet la reconnaissance de photos de textes en langues asiatiques. Toutefois, l’algorithme de redressement 3D automatique risque de ne pas fonctionner, surtout pour les textes orientés verticalement. Utilisez de préférence la commande de chargement d’image standard et effectuez un redressement 3D manuel à l’aide de l’outil SET approprié, le cas échéant. En règle générale, les outils SET peuvent être utilisés sur les images de texte asiatique.

Textes asiatiques dans l’Éditeur de texte

Les pages asiatiques reconnues apparaissent dans l’Éditeur de texte, à condition que votre système prenne en charge les langues d’Extrême-Orient, avec une orientation horizontale. Il n’est pas utile de spécifier des polices asiatiques dans l’onglet OCR de la boîte de dialogue Options, une police par défaut étant
automatiquement appliquée (généralement Arial Unicode MS). Dans l’Éditeur de texte, vous pouvez choisir toute autre police compatible avec les langues asiatiques installée sur votre système. Si vous sélectionnez une police incompatible, les caractères asiatiques sont remplacés par des rectangles.

L’éditeur permet d’afficher et de vérifier le texte. Évitez d’utiliser le niveau de formatage True Page pour du texte vertical. L’édition et la vérification orthographique à grande échelle sont optimisées dans l’application cible. Les options de vérification de l’OCR, les fonctions d’apprentissage et les dictionnaires ne sont pas pris en charge pour les textes asiatiques. Par conséquent, avant de lancer l’OCR sur une page comportant des caractères asiatiques, désactivez les options de marquage des mots absents du dictionnaire, de vérification automatique et d’activation d’IntelliTrain dans l’onglet Vérification de la boîte de dialogue Options. Assurez-vous également qu’aucun fichier d’apprentissage n’est chargé. Les textes asiatiques peuvent être biffés, soit par sélection directe, soit via l’utilisation de la fonction de recherche.

Sortie de textes asiatiques

Les filtres de sortie pour les textes asiatiques sont généralement RTF, Microsoft Word, PDF avec recherches ou XPS. L’orientation du texte détectée lors du prétraitement sera appliquée au fichier de sortie, à condition que l’option True Page ou Page avec enchaînements soit sélectionnée comme format d’exportation. Les modifications apportées dans l’Éditeur de texte (qui affiche toujours le texte horizontalement) sont également appliquées au texte vertical, et exportées. Des filtres Texte brut sont disponibles (TXT Unicode, Bloc-notes), mais avec une orientation de texte toujours horizontale.

 

  • L’étape du flux de travail permettant l’extraction de données de formulaire ne doit pas être appliquée aux pages asiatiques.

 

  • Lorsque vous travaillez avec du texte asiatique vertical, notez que le réglage Texte formaté est particulièrement adapté à l’affichage des résultats dans l’Éditeur de texte. En revanche, les niveaux de formatage True Page et Page avec enchaînements doivent être utilisés pour l’exportation.

Reconnaissance des langues asiatiques