OCR – Présentation générale

La reconnaissance optique de caractères (OCR) est une opération qui consiste à extraire du texte d’une image de page. L’image de page est la représentation électronique d’un texte et, le cas échéant, d’autres éléments tels que des en-têtes et des illustrations, et elle est obtenue par numérisation d’un document papier ou par ouverture d’un fichier image électronique. Ces fichiers peuvent être reçus par e-mail ou par fax ou provenir de votre scanner.

Lorsque les images de page contiennent des caractères, ceux-ci sont composés de points minuscules (pixels) et ne peuvent pas être édités directement. Le processus de reconnaissance examine l’image de texte et la convertit en caractères éditables par un ordinateur, ce qui élimine le besoin de la saisie manuelle.

Le moteur d’OCR analyse cette image : Omnipage s OCR   Présentation générale et génère le caractère correspondant : Omnipage s2 OCR   Présentation générale

Pendant la reconnaissance, OmniPage utilise les paramètres sélectionnés dans la boîte à outils OmniPage pour déterminer les enchaînements du texte sur la page et pour tracer des zones autour des éléments à reconnaître (texte, tableaux), à conserver (graphiques) ou à ignorer. À l’issue de la reconnaissance, le texte peut être enregistré dans la plupart des applications (logiciels de traitement de texte ou de PAO, tableurs, etc.).

Technologies OCR d’OmniPage

Outre le texte, OmniPage peut reconnaître les éléments et caractéristiques suivants du document traité :

Graphiques

Photos, logos, illustrations, etc.

Format des caractères

Les polices, la taille des caractères et les styles de caractère (gras ou italique) sont des exemples de format de caractères. Formats de paragraphes : espacement entre paragraphes, retraits, tabulations, interlignes et alignement.

Mise en page

Agencement des rangées et des colonnes, emplacement des paragraphes, traitement des tableaux et emplacement des éléments graphiques.

Vues de l’Éditeur de texte

Les résultats de la reconnaissance sont affichés dans la fenêtre de l’Éditeur de texte. Cette fenêtre offre trois modes d’affichage et permet de définir les caractéristiques du formatage à appliquer.

  • OmniPage reconnaît uniquement les caractères imprimés, tels que les sorties imprimante ou le texte tapé. Vous pouvez toutefois conserver un bloc de texte manuscrit (une signature, par exemple), en l’entourant d’une zone de type Graphique.

//

OCR – Présentation générale