Optimiser la précision
Ces conseils vous aideront à améliorer la précision de la reconnaissance dans OmniPage.
Sélectionnez le ou les réglages requis dans la boîte de dialogue Options.
Choisissez Options dans le menu Outils ou cliquez sur dans la barre d’outils Standard. Cliquez ensuite sur l’onglet correspondant aux réglages à modifier dans la boîte de dialogue Options.
-
Dans l’onglet OCR, sélectionnez La précision sous Optimiser l’OCR pour….
-
Ajustez les curseurs de luminosité et de contraste dans la fenêtre Scanner. Cliquez ici pour afficher un exemple de luminosité optimale.
-
Retouchez l’image à des fins d’OCR à l’aide des outils SET.
-
Si la précision de la reconnaissance est un critère dominant, privilégiez le mode de numérisation en noir et blanc pour les documents de bonne qualité présentant des caractères noirs nets sur fond blanc. Recourez au mode de numérisation en niveaux de gris si les pages du document présentent un texte sur fond de couleur ou en dégradé, ou encore un contraste variable ou réduit.
-
Sélectionnez Fichier d’apprentissage dans l’onglet Vérification pour charger un fichier d’apprentissage auquel le programme se référera pour reconnaître les caractères spéciaux et stylisés. Pour plus de détails, consultez la rubrique Fichiers d’apprentissage. Les fichiers d’apprentissage ne s’appliquent pas aux langues asiatiques.
Faites appel aux fonctions d’aide à la reconnaissance pertinentes.
-
Avant de lancer l’OCR d’un document volumineux pour lequel vous ne possédez pas de fichier d’apprentissage, créez des données d’apprentissage à partir de quelques pages représentatives. Activez IntelliTrain dans la fenêtre Vérification de la boîte de dialogue Options, lancez la reconnaissance de trois ou quatre pages, puis vérifiez le texte. Examinez ensuite la qualité des données d’apprentissage dans la boîte de dialogue Modification du fichier d’apprentissage, corrigez-les le cas échéant et enregistrez le fichier.
-
Si vous n’êtes pas satisfait des résultats obtenus avec un fichier d’apprentissage, vérifiez son contenu dans la boîte de dialogue Modification du fichier d’apprentissage. Si ce fichier ne convient pas au document en cours, déchargez-le ou supprimez-en les caractères mal formés. Mieux vaut se passer de données d’apprentissage que de travailler avec des données d’apprentissage inadaptées.
-
Si vous avez chargé un dictionnaire utilisateur et que plusieurs mots impropres n’apparaissent pas à la vérification, vérifiez son contenu dans la boîte de dialogue Modification du dictionnaire utilisateur. Supprimez toutes les entrées incorrectes, notamment les mots mal orthographiés.
Déclarez le contenu de zone approprié.
-
Lorsque vous traitez manuellement les pages d’un document, veillez à définir correctement leurs zones avant de lancer l’OCR.
-
Dans le cas d’un traitement automatique, assurez-vous que le réglage de la mise en page originale correspond parfaitement au document. Examinez les résultats de la reconnaissance et modifiez le traçage et/ou les propriétés des zones mal reconnues. Relancez ensuite la reconnaissance des pages dont vous avez modifié les zones.
-
Veillez à ne pas charger de fichier de gabarit de zones inadapté aux pages actuelles.
-
Pour conserver un bloc de texte manuscrit (une signature, par exemple), entourez-le d’une zone Graphique.
Utilisez uniquement des images de qualité.
-
Lorsque vous numérisez un document, efforcez-vous d’utiliser un original. Les pages photocomposées et imprimées sur du matériel de qualité garantissent la meilleure précision de reconnaissance. En effet, la précision de l’OCR dépend souvent de la qualité du document original.
-
Une bonne photocopie est parfois préférable à un original de mauvaise qualité. C’est le cas, par exemple, d’un document original avec faible contraste ou imprimé sur du papier fin. En revanche, une photocopie dégradée, striée et tachée donnera rarement de bons résultats.
-
Demandez à vos correspondants de sélectionner le mode Fin (ou équivalent) lors de l’envoi de fax.
-
Les images de page ne doivent pas comporter d’éléments manuscrits : commentaires, ratures, croquis, etc. Tout caractère non imprimé ralentit considérablement la reconnaissance, et tout caractère surchargé d’une marque quelconque peut être impossible à reconnaître. Il est préférable d’exclure ces marques des zones ou de les placer dans une zone Ignorer.
-
Le texte des images de page doit être aussi net et propre que possible. Les caractères doivent être bien définis et nettement séparés et ne pas se chevaucher ou se fondre les uns dans les autres.
-
Si vous pouvez influer sur le formatage des documents à reconnaître, évitez les traits de soulignement ; ceux-ci sont difficiles à reconnaître avec précision parce qu’ils changent la forme du jambage des lettres q, g, y, p et j.
-
Si le résultat de la reconnaissance d’un fichier image n’est pas satisfaisant, pointez sur sa vignette pour afficher sa qualité et sa résolution. La valeur de 300 ppp est recommandée pour une précision d’OCR optimale ; une résolution inférieure à 200 ppp ou supérieure à 400 ppp risque d’affecter la précision de la reconnaissance. Si vous possédez un exemplaire papier du document, modifiez les réglages, puis relancez la numérisation. Sinon, demandez à la personne qui vous a fourni l’image d’utiliser une résolution de 300 ppp.
//