Apprentissage automatique (IntelliTrain)
Lors de l’apprentissage automatique, le module IntelliTrain retient les corrections apportées par l’utilisateur au cours de la vérification du texte reconnu. Le programme enregistre l’ancienne et la nouvelle forme des caractères concernés et recherche des caractères similaires dans le document.
Pour générer des données d’apprentissage, vous devez sélectionner l’option Activer IntelliTrain dans l’onglet Vérification de la boîte de dialogue Options, puis apporter des modifications au texte vérifié, soit via la boîte de dialogue Vérification de l’OCR, soit à l’aide du menu contextuel d’un mot douteux. D’autres changements effectués lors de la vérification ne génèrent pas de données d’apprentissage. Même les modifications effectuées pendant la vérification n’enrichissent pas toujours l’apprentissage - en effet, IntelliTrain détermine les corrections à conserver.
L’exemple ci-dessous illustre le fonctionnement d’IntelliTrain.
OmniPage risque d’interpréter ce bitmap comme « ccnsultation ». Pendant la vérification du texte, vous remplacez « ccnsultation » par « consultation ». IntelliTrain retient la forme du caractère corrigé et la règle selon laquelle il désigne la lettre « o » et non la lettre « c ». Ensuite IntelliTrain recherche d’autres caractères similaires dans le document et envisage les remplacements suivants :
Mots contenant des formes d’ « o » similaires |
Mots reconnus |
Mots modifiés |
|
dépcuillement |
dépouillement |
|
Crdinateur |
Ordinateur |
Pour générer des données d’apprentissage à l’aide d’IntelliTrain
-
Ouvrez la boîte de dialogue Options depuis l’onglet Vérification et activez IntelliTrain.
-
Parmi les premières pages d’un document volumineux, sélectionnez-en trois ou quatre dont le type de police et la qualité sont caractéristiques de l’ensemble du document.
-
Exécutez l’OCR puis la vérification de ces pages. Apportez les corrections requises.
-
Ouvrez la boîte de dialogue Modification du fichier d’apprentissage et examinez les formes de caractères douteux et les solutions OCR qui leur sont assignées. Pour plus d’informations sur la modification des données d’apprentissage, consultez la rubrique Fichiers d’apprentissage.