Reconocimiento de idiomas asiáticos

Se reconocen cuatro idiomas con alfabetos asiáticos: japonés, coreano, chino tradicional y chino simplificado. El tamaño de fuente más adecuado para el texto principal es de 12 puntos, digitalizado a 300 ppp, lo cual genera caracteres de 48 x 48 píxeles aproximadamente. La resolución mínima es de 30 x 30, que equivale a 10,5 puntos a 300 ppp. Si se trabaja con caracteres más pequeños, se debe utilizar 400 ppp.

La disposición de los textos japoneses y chinos puede ser horizontal (de izquierda a derecha) o vertical (de arriba a abajo, de derecha a izquierda); el texto coreano siempre tiene una disposición horizontal.

El siguiente es un ejemplo de texto chino: Omnipage chinese sample Reconocimiento de idiomas asiáticos y texto coreano Omnipage korean sample Reconocimiento de idiomas asiáticos

A continuación, se muestra el texto japonés.

OmniPage 18 es compatible con sistemas operativos que admiten idiomas asiáticos; sin embargo, si no se selecciona la compatibilidad con idiomas de Asia oriental durante la instalación del sistema, debe agregarse en el Panel de control / Configuración regional y de idioma / Idiomas / Compatibilidad con idioma adicional / Instalar archivos para los idiomas de Asia oriental. Tal vez deba introducir el disco del sistema Windows.

Los cuatro idiomas asiáticos aparecen ordenados alfabéticamente con los demás en el panel Opciones/OCR. Debe seleccionar solamente uno de los idiomas a la vez y evitar realizar una selección múltiple con otros idiomas. El OCR asiático puede manipular textos incrustados breves en inglés sin que se seleccione explícitamente el idioma inglés; esta característica no rige para textos en inglés más largos ni para textos en otros idiomas occidentales.

 

El texto vertical en japonés y chino puede tener partes incorporadas en inglés en diferentes orientaciones:

Neón

Derecha

En paralelo

Omnipage asian vertical neon Reconocimiento de idiomas asiáticos

Omnipage asian vertical right Reconocimiento de idiomas asiáticos

Omnipage asian vertical sidebyside Reconocimiento de idiomas asiáticos

 

Salida

 

El programa puede manipular todos estos textos; en el documento de salida, aparecen girados hacia la derecha.

Verificación de idioma

Además de la lista de idiomas, la opción Verificar selección de idioma invoca la detección automática de idiomas que advierte las diferencias entre el idioma detectado y el parámetro de idioma. Esta opción funciona en el nivel de página e identifica cuatro categorías: japonés, chino, coreano y no asiáticos. No puede distinguir entre chino tradicional y simplificado, ni entre idiomas no asiáticos. La última categoría quiere decir que no se detectaron los caracteres japoneses, chinos ni coreanos. La verificación se realiza durante el preprocesamiento de imágenes, de modo que se debe seleccionar el idioma de reconocimiento requerido antes de cargar la imagen. La detección es más precisa con, al menos, varias líneas de texto y un mínimo de texto en inglés incorporado.

Detección de un idioma individual

Los idiomas asiáticos pueden procesarse con la opción Detectar un idioma individual automáticamente. Esta opción es útil para el procesamiento sin intervención del usuario, donde los documentos de entrada pueden estar en diferentes idiomas. Consulte Opciones de OCR. Elija Idiomas asiáticos o Alfabeto latino e idiomas asiáticos en la lista desplegable para que se tengan en cuenta estos idiomas durante la detección. No se puede usar la opción Verificar selección de idioma cuando esta opción está establecida ni se pueden realizar selecciones de idiomas específicos.

Diseño y separación de zonas

Se recomienda el uso de separación automática de zonas y el diseño automático para páginas asiáticas. Esta función ubica todo el texto detectado en las zonas de texto; si se selecciona un idioma de reconocimiento asiático, se configura al OCR asiático para que lea estas zonas y que detecte y transmita automáticamente la dirección del texto, y que analice las áreas mezcladas de texto horizontal y vertical en una página.

Sin embargo, la herramienta para la separación de zonas Omnipage zone asian vertical Reconocimiento de idiomas asiáticos se puede usar para forzar el reconocimiento asiático vertical mediante la separación manual de zonas. Trace zonas rectangulares con esta herramienta. Para separar en zonas de texto asiático horizontal de manera manual, use el tipo de zona de texto normal. No use las otras dos herramientas de texto vertical en textos asiáticos. Al trazar zonas asiáticas verticales, no se habilita automáticamente un idioma asiático, ni tampoco se influencia la detección automática de idiomas.

Imágenes de cámara digital

Se aceptan para idiomas asiáticos. Sin embargo, el algoritmo de corrección automática de la alineación en 3D posiblemente no sea útil (con seguridad que no es útil para textos verticales). Es preferible usar el comando de carga de imágenes estándar y realizar la corrección manual de la alineación en 3D con la herramienta SET correspondiente, de ser necesario. Por lo general, las herramientas SET se pueden usar en imágenes asiáticas.

Textos asiáticos en el Editor de texto

Las páginas asiáticas reconocidas aparecen en el Editor de texto, siempre que su sistema admita idiomas de Asia oriental, siempre con dirección de texto horizontal. No es necesario especificar fuente asiáticas en Opciones/OCR; se aplica una fuente automáticamente, por lo general, Arial Unicode MS. En el Editor de texto de su sistema, se pueden seleccionar otras fuentes que admiten idiomas asiáticos. Si se selecciona una fuente no compatible con idiomas asiáticos, los caracteres asiáticos se reemplazan por rectángulos.

La compatibilidad del editor permite la verificación y visualización de texto; evite usar True Page para textos verticales. La verificación ortográfica y la modificación a gran escala se realizan mejor en la aplicación de destino. La compatibilidad con diccionarios, la capacitación y la verificación no están disponibles para textos asiáticos. Por lo tanto, antes de efectuar el OCR asiático, vaya al panel Verificación en Opciones y deshabilite la marca de palabras del diccionario, la verificación automática e IntelliTrain y asegúrese de que no esté cargado ningún archivo de capacitación. La eliminación de texto se puede realizar en textos asiáticos, mediante selección o
búsqueda.

Salida para textos asiáticos

Los convertidores de salida típicos para textos asiáticos son RTF, Microsoft Word, PDF o XPS con capacidad de búsqueda. La dirección del texto que se detectó durante el preprocesamiento se aplicará en el archivo de salida, siempre que True Page o el flujo de páginas estén configurados para exportar. Los cambios realizados en el Editor de texto, donde el texto es siempre horizontal, se exportarán, también, al texto vertical. Están disponibles los convertidores de texto sin formato (Unicode TXT, Notepad) pero, en estos casos, la dirección del texto será siempre horizontal.

 

  • No se debe aplicar el paso del flujo de trabajo Extracción de datos de formularios en páginas asiáticas.

 

  • Cuando procese textos asiáticos verticales, tenga en cuenta que el Texto con formato es el mejor para visualizar los resultados en el Editor de texto, pero los niveles de formato de True Page o del flujo de páginas se deben usar para exportar.

Reconocimiento de idiomas asiáticos