Options : OCR

Cette boîte de dialogue permet de définir les paramètres d’OCR. Elle peut être affichée :

  • dans OmniPage,

  • depuis une application Microsoft Office et WordPerfect si la fonction Direct OCR est activée, et

  • dans PaperPort (si ce programme est installé).

Pour afficher cette boîte de dialogue dans OmniPage

  • Ouvrez la boîte de dialogue Options par le biais du bouton Omnipage tb st options OCR Options de la barre d’outils Standard ou à partir du menu Outils.

Pour afficher cette boîte de dialogue pour Direct OCR (dans les applications Microsoft Office et WordPerfect)

  • Cliquez sur Configuration d’acquisition du texte Omnipage icon acquire text settings OCR dans la barre d’outils OmniPage ou dans le menu Fichier de WordPerfect ou d’une application Microsoft Office antérieure à la version 2007 ; ou dans l’onglet Nuance OCR ou le menu Fichier d’une application Microsoft Office 2007 ou 2010.

Pour afficher cette boîte de dialogue dans PaperPort

  1. Avec le bouton droit, cliquez sur l’icône Microsoft Word dans la barre Envoyer vers de PaperPort, puis sélectionnez Options Envoyer vers…. La boîte de dialogue Options Envoyer vers apparaît.

  2. Dans la liste Convertir l’image en texte avec, sélectionnez OmniPage 18 puis cliquez sur le bouton Paramètres…. La boîte de dialogue Options apparaît, avec l’onglet OCR ouvert.

La fenêtre OCR affiche les réglages suivants :

Description de la mise en page

Utilisez ces réglages pour spécifier le traçage automatique de zones.

Automatique : Dans la plupart des cas, il est conseillé de sélectionner le mode Auto et de laisser le programme se charger du traçage des zones. Choisissez Automatique si votre document contient plusieurs types de mise en page, pour les pages comportant plusieurs colonnes et un tableau ou plusieurs tableaux.

Colonne unique sans tableau : Choisissez ce réglage si vos pages contiennent une seule colonne de texte et aucun tableau. Ce type de mise en page est employé généralement dans les livres et les lettres commerciales. Ce réglage convient également aux pages qui contiennent des mots ou des nombres disposés en colonnes et que vous ne souhaitez pas placer dans un tableau, dans des colonnes séparées ou dans une mise en page sans colonnes.

Colonnes multiples sans tableau : Sélectionnez cette option pour les pages dont le texte est disposé dans des colonnes que vous ne souhaitez pas conserver, ou que vous souhaitez décomposer en colonnes indépendantes.

Colonne unique avec tableau : Choisissez cette option si vos pages contiennent une seule colonne de texte et un tableau.

Feuille de calcul : Choisissez cette option si l’intégralité de la page se présente sous la forme d’un tableau que vous souhaitez exporter dans une feuille de calcul ou en tant que tableau unique. Les colonnes uniques ne sont pas détectées.

Formulaire : Choisissez cette option si vos pages contiennent des formulaires.

Document juridique : Choisissez cette option pour les documents juridiques.

Personnalisé : Choisissez cette option pour décrire en détail la mise en page du document d’entrée. Puis, cliquez sur le bouton Mise en page personnalisée pour définir des options dans la boîte de dialogue Mise en page personnalisée… ayant un impact sur la conservation des enchaînements de texte ainsi que sur la détection des tableaux et des graphiques lors du traçage automatique des zones.

Gabarit : Sélectionnez cette option pour définir les zones en fonction d’un gabarit dont vous spécifiez le nom de fichier.

Optimiser l’OCR pour

Cliquez sur La vitesse pour privilégier la vitesse lors de la reconnaissance. Si vous privilégiez la vitesse sur des documents de bonne qualité, vous obtiendrez tout de même de bons résultats. Cliquez sur La précision pour privilégier la précision. Lorsque vous choisissez La vitesse, les formatages les plus complexes, tels que les textes et les arrière-plans colorés pourront ne pas être conservés.

Langues et dictionnaires

Langues du document

Sélectionnez la ou les langues présentes dans le document à traiter. La sélection effectuée indique à OmniPage la ou les langues à détecter lors de l’OCR. Pour optimiser la reconnaissance et obtenir les meilleures suggestions lors de la vérification de l’OCR, sélectionnez uniquement les langues véritablement utilisées dans le document.

Les langues qui figurent en haut de la liste correspondent aux dernières sélections effectuées ; les autres langues suivent par ordre alphabétique. Pour accéder rapidement à une langue, tapez sa première lettre.

Omnipage icon dict OCR

Cette icône indique qu’une langue est associée à un dictionnaire. OmniPage consulte et extrait des suggestions du dictionnaire pendant la reconnaissance et pendant la vérification de l’OCR.

Un moteur de reconnaissance spécifique est utilisé pour les documents en japonais, coréen et chinois. Ne sélectionnez qu’une seule de ces langues à la fois, et ne les combinez pas avec une autre langue non asiatique. De courts passages de texte en anglais peuvent être reconnus sans qu’il soit nécessaire de sélectionner l’anglais comme langue de reconnaissance secondaire. Consultez la rubrique Reconnaissance des langues asiatiques.

Choix auto. d’une langue unique

Cette fonction est conçue pour le traitement autonome de documents dont vous ne connaissez pas la langue à l’avance. Lorsqu’elle est activée, ne pouvez pas définir de langues manuellement. Elle fonctionne avec toutes les langues basées sur l’alphabet latin et associées à un dictionnaire, ainsi qu’avec quatre langues asiatiques. Le russe et le grec ne sont pas pris en charge.

Trois groupes de langues sont proposés dans liste déroulante, sous la case à cocher :

  • Langues basées sur l’alphabet latin (choisissez ce groupe pour visualiser les langues disponibles)

  • Langues asiatiques (chinois traditionnel, chinois simplifié, japonais et coréen)

  • Alphabet latin et Langues asiatiques (combinaison des groupes ci-dessus)

Le texte est analysé à mesure que les pages sont traitées. Une langue de reconnaissance unique est affectée à chaque page. Lorsque cette option est activée, l’option suivante n’est pas disponible.

Vérifier les choix de langues

Cette option active la détection automatique des langues, et vous avertit si la langue détectée dans le document est différente de celle que vous avez choisie. Cette option fonctionne page par page, et identifie quatre catégories de langues : japonais, chinois, coréen et « non asiatique ». Elle ne permet pas de distinguer le chinois traditionnel du chinois simplifié, ni les langues non asiatiques entre elles. La catégorie « non asiatique » signifie qu’aucun caractère japonais, chinois ou coréen n’a été détecté. Cette vérification ayant lieu lors du prétraitement de l’image, la langue de reconnaissance requise doit être définie avant le chargement de l’image. La détection sera d’autant plus fiable que le document comportera plusieurs lignes de texte à reconnaître et un minimum de lignes de texte en anglais.

Dictionnaires spécialisés

Pour sélectionner un dictionnaire spécialisé, cochez la case affichée à côté de son nom. Les dictionnaires suivants sont disponibles : Néerlandais Juridique, Néerlandais Médical, Anglais Juridique, Anglais Médical, Anglais Financier (OmniPage Professional uniquement) ; Français Juridique, Français Médical, Allemand Juridique, Allemand Médical. Pour désélectionner un dictionnaire spécialisé, décochez sa case.

Dictionnaire utilisateur

Vous pouvez également sélectionner un dictionnaire utilisateur. Il s’agit d’un dictionnaire personnel dans lequel vous pouvez ajouter les mots de votre choix. Il complète les dictionnaires intégrés qui sont consultés par OmniPage pendant la reconnaissance et pour afficher des suggestions pendant la vérification de l’OCR. L’emploi d’un dictionnaire utilisateur intégrant des noms propres et les termes spécifiques à un secteur d’activités réduit le nombre d’erreurs signalées par OmniPage (mots douteux, mots non trouvés, etc.). Vous pouvez créer et enregistrer autant de dictionnaires utilisateur que vous le souhaitez.

Pour accéder aux commandes de gestion de dictionnaire utilisateur (création, édition, ajout, suppression), cliquez sur le bouton situé à droite du champ de sélection. Pour décharger un dictionnaire utilisateur, sélectionnez [aucun].

Vous pouvez charger et enregistrer vos dictionnaires utilisateur sur un lecteur de réseau ou sur n’importe quel autre emplacement.

La liste comprend également les dictionnaires utilisateur Microsoft Word détectés sur le système. Si la liste propose la valeur Personnalisé, il s’agit de votre dictionnaire Word par défaut (fichier dans lequel sont ajoutés les mots que vous acceptez lors des vérifications orthographiques effectuées sous Word).

Aucun dictionnaire utilisateur ne peut être utilisé lors de la reconnaissance des langues asiatiques.

Polices et caractères

Mappage des polices

Le bouton Mappage des polices permet de sélectionner les polices de votre système à utiliser pour le mappage ou la représentation des polices dans vos documents. Le mappage des polices n’a aucun effet lors de la reconnaissance de caractères asiatiques. Pour ces caractères, une police compatible est automatiquement sélectionnée.

Caractères supplémentaires

Entrez ici les autres caractères accentués acceptés lors de la reconnaissance, en plus de ceux validés par la/les langue(s) que vous avez choisie(s). Entrez ces caractères à l’aide de votre clavier ou depuis la table de caractères.

Cliquez sur Omnipage tb f charmap OCR pour ouvrir la table de caractères.

Caractère de rejet

Tout caractère qui ne peut être identifié est signalé dans l’Éditeur de texte par un caractère de rejet rouge (tilde ~ par défaut) . Par exemple, si OmniPage ne reconnaît pas la lettre J du mot REJET et que ~ est le caractère de rejet, la chaîne RE~ET apparaît dans le document reconnu.

Tapez le caractère de votre choix dans le champ Caractère de rejet (efforcez-vous de spécifier un caractère qui ne risque pas de figurer dans vos documents).

Cliquez sur Omnipage tb f charmap OCR pour ouvrir la table de caractères.

Table de caractères

Utilisez-la pour copier et coller des caractères accentués dans la zone de texte. Les caractères qui apparaissent grisés dans la table de caractères ne sont pas activés pour la reconnaissance mais peuvent être insérés dans la zone de texte. Cliquez avec le bouton droit sur une zone vide de la table de caractères et utilisez le menu contextuel qui apparaît pour afficher ou masquer les jeux de caractères. Les caractères asiatiques ne sont pas pris en charge.

//

OCR