Easy OCR

El componente Easy OCR es una herramienta de inteligencia artificial diseñada para leer y extraer texto de imágenes y documentos. Piensa en él como un “escáner inteligente”: tú le entregas una foto de un documento (como una factura, una carta o una captura de pantalla) y el componente te devuelve el texto escrito en formato digital.

Esta funcionalidad es fundamental en la automatización de procesos (RPA) dentro de Nappai, ya que permite tomar datos que están “atrapados” en imágenes (por ejemplo, el número de una factura en una imagen PNG) y convertirlos en información procesable que el sistema pueda guardar, buscar o analizar automáticamente.

¿Cómo funciona?

El componente utiliza una tecnología avanzada llamada OCR (Reconocimiento Óptico de Caracteres), específicamente la librería EasyOCR. Cuando ejecutas el flujo de trabajo, el componente realiza los siguientes pasos de manera automática:

Análisis de la Imagen: El sistema recibe la imagen (como un archivo PNG, JPG, PDF, etc.) y la escanea pixel por pixel.
Identificación de Patrones: Utiliza modelos de aprendizaje automático para identificar dónde hay texto y distinguir las letras de los fondos o dibujos.
Conversión: Transforma esos patrones visuales en caracteres de texto legibles (letras, números, símbolos).
Formato de Salida: Organiza el texto extraído. Dependiendo de tu configuración, puede entregarte el texto como un párrafo continuo, línea por línea, o incluso con la ubicación exacta de cada palabra en la imagen.

No necesitas programar algoritmos complejos; el componente se encarga de toda la lógica interna para procesar la imagen de forma eficiente.

Entradas

Para que el componente funcione, necesitas proporcionarle los datos correctos a través de los siguientes campos:

Input Image: Es el campo principal donde debes arrastrar o seleccionar la imagen (imagen o documento PDF) de la cual deseas extraer el texto. El sistema acepta formatos comunes como PNG, JPG, JPEG, BMP, GIF, TIFF y PDF.
Languages: Aquí defines en qué idiomas está escrito el texto de la imagen (por ejemplo, es,en para español e inglés). Esto ayuda al sistema a ser más preciso al reconocer letras y palabras. Si lo dejas vacío, el sistema intentará adivinar el idioma o usará configuraciones predeterminadas.
Paragraph Mode: Esta es una casilla de verificación (Sí/No).
- Si la activas (On), el componente agrupará líneas cercanas para formar párrafos coherentes, eliminando saltos de línea innecesarios.
- Si la desactivas (Off), el texto se mantendrá en líneas separadas, lo cual es útil si necesitas saber dónde terminó cada línea original.
Min Confidence: Es un valor numérico (de 0.0 a 1.0) que actúa como un filtro de calidad. El componente ignorará las palabras o líneas sobre las que no tenga una certeza mínima. Por ejemplo, si pones 0.6, solo extraerá el texto del cual está al menos un 60% seguro. Esto ayuda a evitar errores en documentos muy borrosos.
Detailed Output: Casilla de verificación (Sí/No).
- Si la activas, el componente te devolverá no solo el texto, sino también información adicional como las coordenadas (donde está cada palabra en la imagen) y el nivel de confianza de cada parte. Esto es útil para auditorías o si necesitas saber qué parte de la imagen fue leída.
Single Paragraph Output: Casilla de verificación (Sí/No).
- Si la activas, tomará todo el texto extraído y lo unirá en un solo bloque de texto continuo, normalizando los espacios.
- Si la desactivas, mantendrá la estructura original de líneas separadas.

Salidas

Una vez que el componente ha procesado la imagen, te proporciona la siguiente información:

Extracted Text: Este es el resultado principal. Contiene el texto completo que fue detectado en la imagen. Este texto puede conectarse directamente a otros componentes para ser guardado en una base de datos, enviado por correo, o analizado por un Asistente de IA.

Ejemplo de Respuesta JSON

A continuación, se muestra un ejemplo de cómo se ve la estructura de los datos cuando el componente ha extraído el texto con éxito. En este caso, se ha extraído una factura simple: json { “status”: “success”, “data”: { “text”: “FACTURA #2023-001\nFecha: 25/10/2023\nTotal: $150.00\nGracias por su compra.”, “confidence_avg”: 0.92, “language_detected”: “es” }, “metadata”: { “processing_time_ms”: 350, “words_detected”: 12 } }

Nota: La información exacta en el campo Extracted Text dependerá de la calidad de la imagen y de las configuraciones de “Languages” y “Paragraph Mode” que hayas seleccionado.

Conectividad

Este componente suele situarse al inicio de un flujo de automatización de documentos. Es una “entrada” de datos visuales.

Conexión Típica 1: Almacenamiento de Datos. Después de extraer el texto, es común conectar la salida a un componente que guarde la información en una base de datos, un Excel o un CRM para crear registros digitales de tus facturas o documentos.
Conexión Típica 2: Procesamiento de IA (LLM). Una vez que el texto está disponible, puedes conectarlo a un componente de “Asistente de IA” o “Análisis de Texto”. Por ejemplo, pedirle a la IA que “resuma el contenido del texto extraído” o que “extraiga el total a pagar”.
Conexión Típica 3: Validación. Si activas la opción “Detailed Output”, puedes conectar los resultados a un componente de validación para revisar si la lectura fue correcta antes de proceder con el resto de la automatización.

Ejemplo de Uso

Imagina que tienes un flujo de trabajo para automatizar la recepción de facturas de proveedores:

Recibes un correo electrónico con una factura en formato de imagen (PNG).
El componente Easy OCR toma esa imagen.
Configuras el campo Languages en es,en porque la factura puede estar en español o inglés.
El componente extrae el texto de la imagen.
El flujo conecta ese texto a un componente de “Inteligencia Artificial” que analiza el texto y extrae específicamente el Total a Pagar y la Fecha.
Finalmente, ese dato se guarda automáticamente en tu sistema de contabilidad.

Sin el componente Easy OCR, el sistema solo vería una imagen y no podría saber qué números hay en ella.

Consejos y Mejores Prácticas

Calidad de la Imagen: El OCR funciona mejor con imágenes claras, nítidas y bien iluminadas. Evita imágenes borrosas o con mucho ruido visual.
Idiomas Correctos: Especifica siempre los idiomas correctos en el campo Languages. Si sabes que tu documento está en español, no dejes el campo vacío; pon es. Esto acelera el proceso y aumenta la precisión.
Uso del Filtro de Confianza: Si notas que el texto extraído tiene errores, prueba subir el valor de Min Confidence. Esto forzará al sistema a ser más estricto y solo mostrará el texto del que está muy seguro, ayudando a reducir “alucinaciones” o lecturas incorrectas.
Manejo de PDFs: El componente también soporta PDFs. Si tu documento es un PDF de varias páginas, el sistema intentará leer todo el contenido, pero puede ser más lento. Para documentos largos, considera usar configuraciones de “Paragraph Mode” para mantener la estructura.

Consideraciones de Seguridad

Privacidad de Datos: Al procesar imágenes y documentos, asegúrate de estar cumpliendo con las políticas de privacidad de tu empresa y las leyes locales (como GDPR), especialmente si estás procesando información personal o confidencial de clientes.
Validación de Entradas: Asegúrate de que las imágenes que se envían al flujo provengan de fuentes confiables para evitar la inyección de metadatos maliciosos o archivos corruptos.
Almacenamiento: Revisa qué pasa con la imagen original después del OCR. Si no necesitas la imagen después de extraer el texto, asegúrate de que el flujo no la guarde innecesariamente en bases de datos accesibles.