Reconnaissance de texte incorrecte

Si une partie du document original n’est pas convertie en texte correctement pendant l’OCR, vous pouvez avoir recours aux solutions suivantes :

  • Inspectez l’image de page et assurez-vous que toutes les sections de texte sont délimitées par des zones de type Texte (tout bloc de texte non entouré d’une zone est ignoré lors de la reconnaissance).

  • Vérifiez que les zones de texte sont identifiées correctement. Si nécessaire, sélectionnez d’autres valeurs de type et/ou de contenu pour les zones existantes et relancez la reconnaissance du document. Pour plus de détails, consultez la rubrique Types de zone et contenu.

  • Assurez-vous que vous n’avez pas chargé un gabarit incorrect. Si les bords des zones empiètent sur le texte, la qualité de la reconnaissance en est affectée.

  • Ajustez les curseurs de luminosité et de contraste dans l’onglet Scanner de la boîte de dialogue Options. Il est possible que vous deviez tester différents réglages jusqu’à ce que vous obteniez les résultats désirés.

  • Retouchez l’image à des fins d’OCR à l’aide des outils SET.

  • Vérifiez la résolution de l’image originale : placez le curseur sur la vignette de page voulue pour afficher une mini-fenêtre. Une résolution bien supérieure ou inférieure à 300 ppp risque d’affecter la reconnaissance.

  • Vérifiez que les langues du document ont été correctement sélectionnées dans les réglages OCR ; seules les langues effectivement présentes dans le document doivent être sélectionnées. En particulier, le fait de sélectionner une langue asiatique pour les textes ne comportant pas de caractères asiatiques (et inversement) risque de générer des résultats inexploitables.

  • Si vous avez activé l’option Choix auto. d’une langue unique, le programme analyse automatiquement chaque page entrante et lui affecte une langue. Si la langue choisie par le programme n’est pas la bonne, ou si plusieurs langues sont affectées aux pages, relancez la reconnaissance manuelle des pages.

  • L’affichage et l’enregistrement des résultats de la reconnaissance d’un texte en japonais, coréen ou chinois ne sont possibles que si votre système prend en charge les langues d’Extrême Orient.

  • Activez IntelliTrain et effectuez les corrections nécessaires. Cette fonction convient tout particulièrement aux polices stylisées et aux documents présentant une dégradation uniforme. Si IntelliTrain était actif lors de l’OCR, désactivez-le car il n’est pas destiné à certains types de documents très dégradés.

  • Exécutez un apprentissage manuel ou éditez les données d’apprentissage existantes pour supprimer toute valeur incorrecte.

  • Si vous activez le niveau de formatage True Page dans l’Éditeur de texte pour l’affichage ou l’exportation, le texte reconnu est placé dans des cadres ou des blocs de texte. Si l’un de ces blocs de texte est trop petit, une partie du texte peut être masquée. Pour afficher le texte caché, placez le curseur dans ce bloc de texte et utilisez les touches flèches du clavier pour faire défiler le texte dans la direction requise.

  • Vérifiez qu’il n’y a ni poussières ni rayures sur les parties vitrées ou les lentilles de votre scanner. Au besoin, nettoyez ces éléments.

  • OmniPage reconnaît uniquement les caractères imprimés (machine à écrire, imprimante laser, etc.). Le programme peut traiter les caractères matriciels, mais la précision de l’OCR risque d’être insatisfaisante pour les textes de qualité moyenne. Le programme n’accepte pas les caractères manuscrits ; toutefois, vous pouvez lui demander de conserver un bloc de texte manuscrit (une signature, par exemple) en entourant celui-ci d’une zone de type Graphique.

Reconnaissance de texte incorrecte