Aprimoramento da precisão

Estas dicas foram formuladas para aumentar a precisão do OCR no OmniPage.

Selecione as configurações que aumentam a precisão na caixa de diálogo Opções.

Escolha Opções no menu Ferramentas ou clique em Omnipage tb st options Aprimoramento da precisão na barra de ferramentas Padrão. Depois, na caixa de diálogo Opções, clique na guia correspondente às configurações que você deseja alterar:

  • Selecione Velocidade em Otimizar o processo de OCR para… no painel OCR.

  • Ajuste os controles deslizantes de Brilho e Contraste no painel Scanner. Clique aqui para obter um exemplo de brilho ótimo.

  • Aperfeiçoe imagens para fins de OCR usando as ferramentas SET.

  • Se seu único critério é a precisão de OCR, prefira a digitalização em preto e branco para documentos de boa qualidade com texto preto vivo sobre um fundo branco. Escolha a digitalização em tons de cinza se estiver digitalizando páginas com texto sobre fundo colorido ou sombreado ou documentos deteriorados com contraste baixo ou irregular.

  • Selecione Arquivo de treinamento no painel Revisão para usar um arquivo de treinamento de caractere para ajudar a reconhecer caracteres especiais ou estilizados durante o OCR. Veja Arquivos de treinamento para obter mais informações. Isso não se aplica a idiomas asiáticos.

Use assistentes de reconhecimento adequados

  • Se você possui um documento grande e nenhum arquivo de treinamento adequado, faça um treinamento com algumas páginas representativas do documento. Ative o IntelliTrain no painel Revisão na caixa de diálogo Opções, reconheça três ou quatro páginas e revise o texto. Verifique a qualidade do treinamento na caixa de diálogo Editar Treinamento e salve o arquivo.

  • Se você estiver obtendo resultados de baixa qualidade com o arquivo de treinamento carregado, verifique seu conteúdo na caixa de diálogo Editar treinamento. Certifique-se de que ele é adequado para o documento atual. Caso seja inadequado, descarregue-o ou edite seu conteúdo para remover o treinamento baseado em caracteres formados inadequadamente. Um treinamento inadequado pode causar resultados piores do que nenhum treinamento.

  • Se a revisão estiver deixando passar muitas palavras inadequadas e você estiver com um dicionário do usuário carregado, verifique seu conteúdo na caixa de diálogo Editar dicionário do usuário. Apague os verbetes errados que foram acrescentados, especialmente palavras com ortografia incorreta.

Identifique as zonas corretamente

  • Quando processar páginas manualmente, certifique-se de que as zonas estão corretamente identificadas antes do OCR.

  • Quando processar páginas automaticamente, certifique-se de que a definição de seu layout original é a melhor possível para o documento. Verifique os resultados do reconhecimento. Se houver problemas causados por zoneamento de baixa qualidade em algumas páginas, altere as propriedades e/ou localizações das zonas e reconheça estas páginas novamente.

  • Certifique-se de que o arquivo de gabarito de zonas carregado não é inadequado para as páginas atuais.

  • Para preservar um texto escrito à mão – uma assinatura, por exemplo –, identifique-o como zona de imagem.

Use imagens de boa qualidade

  • Tente usar documentos originais ao digitalizar documentos. As páginas impressas em boa qualidade ou datilografadas proporcionam a melhor precisão de OCR. A precisão do OCR poderá ser inferior no caso de páginas de baixa qualidade.

  • No caso de originais de baixa qualidade, uma boa fotocópia pode produzir melhores resultados de OCR. Isto pode ajudar no caso de documentos com baixo contraste ou impressos em papel fino. Por outro lado, fotocópias de baixa qualidade, com listas, manchas ou brilho irregular geralmente produzirão resultados piores.

  • Peça aos remetentes para selecionarem o Modo Fine ou Best ao lhe enviarem um fax.

  • As imagens de página não devem conter anotações, linhas ou rabiscos. Qualquer coisa diferente de um caractere impresso torna o reconhecimento mais lento e os caracteres distorcidos por uma marca não serão reconhecidos. Tente não incluir tais marcas em zonas ou coloque-as em uma zona Ignorar.

  • O texto nas imagens da página deve estar razoavelmente limpo e nítido. Os caracteres devem estar separados uns dos outros e não devem estar borrados ou sobrepostos.

  • Se você tiver alguma influência sobre o estilo adotado nos documentos que deseja reconhecer, evite o uso de texto sublinhado. É difícil reconhecer texto com essa formatação, pois o sublinhado modifica o formato das pernas nas letras q, g, y, p e j.

  • Se você estiver obtendo resultados de baixa qualidade com os arquivos de imagens, verifique sua qualidade e resolução colocando o cursor sobre as miniaturas. A resolução ideal para OCR é 300 dpi. Imagens com menos de 200 dpi ou mais de 400 dpi podem resultar em precisão ainda menor. Se você tiver os documentos em papel, digitalize-os novamente com melhores configurações. Caso contrário, solicite a seus fornecedores de imagem que utilizem 300 dpi.

//

Aprimoramento da precisão