Opções: OCR

Esta caixa de diálogo serve para selecionar configurações de OCR. Ela pode ser exibida

  • no OmniPage,  

  • a partir de aplicativos do Microsoft Office e do WordPerfect usando o Direct OCR e

  • no PaperPort (se instalado).

Para exibir esta caixa de diálogo no OmniPage

Para exibir esta caixa de diálogo de Direct OCR (em aplicativos do Microsoft Office e no Word Perfect)

  • Clique no botão Omnipage icon acquire text settings OCR Configurações de Obtenção de Texto em uma barra de ferramentas do OmniPage (ou use o menu Arquivo) no WordPerfect ou em versões mais antigas do Microsoft Office, ou na guia Nuance OCR em um aplicativo do Microsoft Office 2007 ou 2010, ou no menu Arquivo.

Para exibir esta caixa de diálogo no PaperPort

  1. Clique com o botão direito do mouse no ícone do Microsoft Word na barra ‘Enviar para’ do PaperPort e selecione Opções de Enviar para…. A caixa de diálogo ‘Opções de Enviar para’ aparece.

  2. Escolha OmniPage 18 na caixa de seleção Converter imagem para texto (OCR) com e clique no botão Configurações…. A caixa de diálogo Opções aparece com o painel OCR aberto.

O painel OCR oferece as seguintes configurações:

Descrição do layout

Use estas configurações para influenciar o processo de zoneamento automático.

Automático(a) – Na maioria dos casos, a opção Automático(a) é adequada, deixando que o programa tome todas as decisões de zoneamento. Escolha Automático(a) se seu documento contiver páginas com layouts diferentes. Escolha Automático(a) para uma página com várias colunas e uma tabela e para quaisquer páginas com mais de uma tabela.

Coluna Única, sem Tabela – Escolha esta configuração se as páginas contiverem só uma coluna de texto e nenhuma tabela. Cartas comerciais ou páginas de livro normalmente são assim. Escolha também esta opção para uma página com palavras ou números dispostos em colunas se você não quiser que sejam colocados em uma tabela, percam as colunas ou sejam tratados como colunas separadas.

Várias Colunas, sem Tabela – Escolha esta configuração se algumas de suas páginas contiverem texto em colunas e você quiser texto sem colunas ou mantido em colunas separadas.

Coluna Única com Tabela – Escolha esta configuração se as suas páginas contiverem uma coluna de texto e uma tabela.

Planilha – Escolha esta configuração se a sua página inteira consistir de uma tabela que você deseja exportar para um programa de planilha ou tratar como uma tabela. Nenhuma zona de texto ligado será detectada.

Formulário – Escolha esta opção se suas páginas contiverem formulários.

Numeração Legal – Escolha esta opção para documentos legais.

Personalizado (definido pelo usuário) – Escolha esta opção para descrever precisamente o layout das páginas em um documento. Em seguida, clique no botão Layout Personalizado para especificar configurações na caixa de diálogo Layout personalizado que influenciarão o fluxo do texto e a detecção de tabelas e elementos gráficos durante o zoneamento automático.  

Gabarito – Use isto para que o zoneamento seja executado por um gabarito especificado por você.

Otimizar o processo de OCR por…

Clique em Velocidade para otimizar o reconhecimento com ênfase na velocidade. O uso de ‘Velocidade’ com documentos de boa qualidade pode ainda produzir uma precisão aceitável. Clique em Precisão para otimizar o reconhecimento com ênfase na precisão. Ao optar por ‘velocidade’, a formatação avançada, como textos e fundos coloridos ou texto invertido, não poderá ser preservada.

Idiomas e dicionários

Idiomas no documento

Selecione os idiomas ou idioma presente no documento a ser processado. O OmniPage procurará por esses idiomas durante o OCR. Para que o reconhecimento seja mais rápido e preciso, e as sugestões de revisão mais confiáveis, selecione apenas os idiomas presentes no documento.

Os idiomas que aparecem no topo da lista refletem as escolhas mais recentes. Abaixo desses idiomas aparecerão os demais, listados em ordem alfabética. Digite uma letra para pular para um idioma iniciado por ela.

Omnipage icon dict OCR

Este ícone indica um idioma com suporte de dicionário. O dicionário é consultado para ajudar no processo de OCR, para oferecer sugestões durante a revisão e para detecção automática do idioma.

A configuração de idioma japonês, coreano e chinês inicia um mecanismo de reconhecimento dedicado. Somente um desses idiomas deve ser selecionado de cada vez e não deve ser combinado com nenhum idioma não-asiático. Textos curtos em inglês incorporados podem ser reconhecidos sem que o inglês seja selecionado como idioma de reconhecimento. Consulte Reconhecimento de idioma asiático.

Detectar automaticamente idioma único

Esta opção foi projetada para processamento autônomo quando o idioma dos documentos de entrada não pode ser determinado previamente. Quando habilitada, nenhuma outra opção de idioma é possível. Ela pode atuar com todos os idiomas com suporte de dicionário que usam alfabeto latino, além de quatro idiomas asiáticos. O russo e o grego ficam de fora. 

Três grupos de idiomas são oferecidos na lista suspensa abaixo da marca de seleção: 

  • Idiomas latinos (selecione para ver os idiomas habilitados)

  • Idiomas asiáticos (chinês tradicional, chinês simplificado, japonês e coreano).

  • Alfabeto latino e idiomas asiáticos (todo os acima)

À medida que as páginas chegam, os textos são analisados e um único idioma de rec
onhecimento validado é atribuído a cada página. Quando esta opção está habilitada, a opção a seguir não fica disponível.

Verificar opções de idioma

A ativação desta marca de seleção inicia a detecção automática de idiomas que alerta sobre as diferenças entre um idioma detectado e a configuração de idioma. Ela funciona no nível da página e identifica quatro categorias: japonês, chinês, coreano e não-asiático. Não consegue distinguir entre chinês tradicional e simplificado nem entre os idiomas não-asiáticos. A última categoria indica que não foram detectados caracteres japoneses, chineses nem coreanos. A verificação ocorre durante o pré-processamento da imagem, portanto, o idioma de reconhecimento necessário deve ser definido antes do carregamento da imagem. A detecção é mais robusta com pelo menos algumas linhas de texto e pouco texto incorporado em inglês.

Dicionários profissionais

Clique na caixa de seleção ao lado do nome de um dicionário para selecioná-lo. As opções são: Direito Holandês, Médico Holandês, Direito Inglês, Médico Inglês, Financeiro Inglês (somente no OmniPage Professional), Direito Francês, Médico Francês, Direito Alemão, Médico Alemão. Para desmarcar um dicionário profissional, clique nele novamente.

Dicionário do usuário

Selecione um dicionário do usuário, se desejado. O dicionário do usuário é um dicionário pessoal ao qual você pode acrescentar palavras. Ele complementa os dicionários integrados ao programa, facilitando o processo de OCR e as sugestões feitas durante a revisão. O dicionário do usuário também é útil para evitar que o programa suspeite dos nomes próprios ou dos termos especializados que aparecem nos seus documentos. Você pode criar e salvar tantos dicionários do usuário quantos quiser.

Clique no botão à direita da caixa de seleção para criar, editar, adicionar ou remover um dicionário do usuário. Selecione [nenhum] para descarregar um dicionário do usuário.

Você pode carregar e salvar dicionários de usuário em locais de rede ou de outro tipo.

Além disso, todos os dicionários do usuário do Microsoft Word que forem detectados no seu sistema serão listados. Um dicionário chamado Personalizado pode aparecer – é o seu dicionário padrão do Word.

Os dicionários do usuário não podem ser usados com reconhecimento de texto asiático.

Fontes e caracteres

Correspondência de fontes

Clique em Correspondência de fontes… para selecionar qual das fontes instaladas no seu sistema deve ficar disponível para realizar a correspondência de fontes ou a representação das fontes dos seus documentos. A correspondência de fontes não afeta o reconhecimento de texto asiático; uma fonte compatível com texto asiático é automaticamente definida nesses casos.

Caracteres adicionais

Digite aqui letras acentuadas que você deseja validar no reconhecimento, além das que já são validadas por sua opção de idioma. Insira caracteres do teclado ou do mapa de caracteres.

Clique em Omnipage tb f charmap OCR para abrir o Mapa de Caracteres.

Caracteres rejeitados

Os caracteres irreconhecíveis são representados no Editor de Texto por um caractere de rejeição vermelho (um til: ~ por padrão). Por exemplo, se o OmniPage não pudesse reconhecer o J em REJEITAR, e ~ fosse o caractere rejeitado, a seqüência RE~EITAR apareceria no seu documento.

Digite o caractere que deseja usar na caixa de edição Caractere rejeitado. Tente selecionar um caractere que não aparecerá em seus documentos.

Clique em Omnipage tb f charmap OCR para abrir o Mapa de Caracteres.

Mapa de Caracteres

Use-o para copiar e colar letras acentuadas na caixa de edição. Os caracteres esmaecidos no Mapa de Caracteres indicam que não estão ativados para reconhecimento, embora possam ser inseridos na caixa de edição. Clique com o botão direito do mouse em uma área vazia abaixo do mapa de caracteres e use o menu contextual para exibir ou ocultar conjuntos de caracteres. Não há suporte para caracteres asiáticos.

//

OCR