Reconhecimento de idioma asiático

Há suporte para quatro idiomas com alfabetos asiáticos: japonês, coreano, chinês tradicional e chinês simplificado. O tamanho de fonte ideal para o texto do corpo é 12 pontos, digitalizado a 300 dpi, resultando em caracteres com cerca de 48 x 48 pixels. O mínimo é 30 x 30, ou seja, 10,5 pontos a 300 dpi. Para caracteres menores, deve-se usar 400 dpi.

Os textos em japonês e chinês podem ser horizontais (esquerda para direita) ou verticais (de cima para baixo); os textos em coreano são sempre horizontais.

Veja um exemplo de texto em chinês: Omnipage chinese sample Reconhecimento de idioma asiático e texto em coreano Omnipage korean sample Reconhecimento de idioma asiático

O texto em japonês é mostrado abaixo.

Os sistemas operacionais compatíveis com o OmniPage 18 podem processar idiomas asiáticos, mas se o suporte para idiomas do Leste Asiático não tiver sido selecionado durante a instalação do sistema, ele deve ser adicionado em Painel de Controle / Configurações Regionais e de Idioma / Idiomas / Suporte a idioma suplementar / Instalar arquivos para idiomas do Leste Asiático. Pode ser necessário inserir o disco do sistema Windows.

Os quatro idiomas asiáticos são listados alfabeticamente com os outros no painel Opções/OCR. Você deve selecionar apenas um desses idiomas de cada vez e evitar a seleção conjunta com outros idiomas. O OCR asiático pode processar pequenos textos em inglês incorporados sem que o inglês tenha sido explicitamente definido; isso não foi previsto para textos em inglês mais longos nem para textos em outros idiomas ocidentais.

 

O texto vertical em japonês e chinês pode ter texto em inglês incorporado em orientações diferentes:

Néon

Direita

Lado a lado

Omnipage asian vertical neon Reconhecimento de idioma asiático

Omnipage asian vertical right Reconhecimento de idioma asiático

Omnipage asian vertical sidebyside Reconhecimento de idioma asiático

 

Saída

 

O programa pode processar todos esses; na saída, eles aparecem girados para a direita.

Verificação do idioma

Além da lista de idiomas, a opção Verificar opções de idioma inicia a detecção automática de idiomas que alerta para diferenças entre um idioma detectado e a configuração de idioma. Ela funciona no nível da página e identifica quatro categorias: japonês, chinês, coreano e não-asiático. Não consegue distinguir entre chinês tradicional e simplificado nem entre os idiomas não-asiáticos. A última categoria indica que não foram detectados caracteres japoneses, chineses nem coreanos. A verificação ocorre durante o pré-processamento da imagem, portanto, o idioma de reconhecimento necessário deve ser definido antes do carregamento da imagem. A detecção é mais robusta com pelo menos algumas linhas de texto e pouco texto incorporado em inglês.

Detecção de idioma único

Os idiomas asiáticos podem ser processados com a opção Detectar automaticamente idioma único. Isso é útil para o processamento autônomo em que os documentos de entrada podem estar em idiomas diferentes. Consulte Opções de OCR. Escolha Idiomas Asiáticos ou Alfabetos Latinos e Idiomas Asiáticos na lista suspensa para que esses idiomas sejam considerados durante a detecção. Verificar opções de idioma não pode ser usado quando esta opção está definida, nem opções individuais de idioma podem ser feitas.

Layout e zoneamento

A detecção automático do layout e o zoneamento automático são recomendáveis para páginas asiáticas. Isso coloca todos os textos detectados em zonas de texto; ao escolher um idioma de reconhecimento asiático, você configura o OCR asiático para ser executado nessas zonas e isso pode detectar e transmitir automaticamente a direção do texto, processando áreas mistas de textos horizontais e verticais em uma página.

Contudo, a ferramenta de zoneamento Omnipage zone asian vertical Reconhecimento de idioma asiático permite forçar o reconhecimento asiático vertical através de zoneamento manual. Defina zonas retangulares com essa ferramenta. Para zonear manualmente texto asiático horizontal, use o tipo de zona de texto comum. Não use as duas outras ferramentas para texto vertical em textos asiáticos. A definição de uma zona asiática vertical não habilita automaticamente um idioma asiático nem influencia a detecção automática de idiomas.

Imagens de câmera digital

São aceitáveis para idiomas asiáticos. Contudo, é pouco provável que o algoritmo de desinclinação 3D automática seja útil – certamente não para textos verticais. Use preferivelmente o comando padrão de carregamento de imagens e faça uma desinclinação 3D manual com a ferramenta SET relevante, se necessário. Em geral, as ferramentas SET podem ser usadas em imagens asiáticas.

Textos asiáticos no Editor de Texto

As páginas asiáticas reconhecidas aparecem no Editor de Texto, desde que haja suporte para idiomas do leste asiático no seu sistema – sempre com direção de texto horizontal. Não há necessidade de especificar fontes asiáticas em Opções/OCR, pois uma fonte padrão é automaticamente aplicada – geralmente Arial Unicode MS. Outras fontes do seu sistema compatíveis com idiomas asiáticos podem ser escolhidas no Editor de Texto. Se for selecionada uma fonte sem suporte para texto asiático, os caracteres asiáticos serão substituídos por retângulos.

O suporte do Editor permite visualização e verificação de texto – evite True Page para textos verticais. Para edição em grande escala e verificação ortográfica, será melhor usar o aplicativo de destino. Não há revisão, treinamento nem suporte de dicionário para textos asiáticos. Portanto, antes de realizar um OCR asiático, vá para o painel Revisão em Opções e desabilite a marcação de palavras ausentes no dicionário, a revisão automática e o IntelliTrain, e certifique-se de que nenhum arquivo de treinamento seja carregado. A supressão de texto pode ser aplicada a textos asiáticos, seja por seleção ou pesquisa.

Saída de texto asiático

Os conversores de saída típicos para textos asiáticos são RTF, Microsoft Word, PDF Pesquisável e XPS. A direção de texto detectada durante o pré-processamento será aplicada ao arquivo de saída, desde que True Page ou Página Ligada estejam definidos para a exportação. As alterações feitas no Editor de Texto – onde o texto é sempre horizontal – serão e
xportadas, também para texto vertical. Os conversores de Texto Simples estão disponíveis (TXT Unicode, Bloco de Notas), mas nesses casos, a direção do texto será sempre horizontal.

 

  • A etapa de fluxo de trabalho da Extração de Dados de Formulários não deve ser aplicada a páginas asiáticas.

 

  • Ao processar texto asiático vertical, observe que escolher Texto Formatado é a melhor opção para a visualização de resultados no Editor de Texto, mas os níveis de formatação True Page ou Página Ligada devem ser usados para exportação.

Reconhecimento de idioma asiático