Gemini OCR

¡Hola! Bienvenido a la documentación del componente Gemini OCR. Este nodo es tu asistente mágico para leer documentos y convertirlos en texto digital.

Imagina que puedes tomar una foto de un contrato, una factura o una imagen y pedirle a la computadora que te diga exactamente qué dice en cada palabra. Gemini OCR hace exactamente eso. Utiliza la potente tecnología de visión de Google Gemini para analizar imágenes y archivos PDF y extraer todo el texto contenido en ellos de manera rápida y precisa.

¿Cómo funciona?

Este componente actúa como un lector experto. Cuando le entregas una imagen o un PDF, sigue estos pasos simples:

Recibe tus documentos: Tomas la imagen o el archivo PDF y lo conectas al componente.
Lo analiza con IA: El componente envía tu documento a los modelos de visión de Google Gemini. Estos modelos “miran” el documento y detectan letras, párrafos y estructura.
Extrae el texto: La IA reconoce los caracteres y convierte lo que vio en texto plano que puedes leer, editar o usar en otras partes de tu sistema.
Devuelve el resultado: Recibes el texto extraído listo para ser guardado en una base de datos, analizado por otro asistente o descargado.

Básicamente, conviertes archivos visuales en texto útil para que tu sistema de automatización (Nappai) pueda leerlo y procesarlo.

Conexión y Credenciales

Este componente requiere configurar previamente una credencial en el panel de Nappai para poder interactuar con el servicio de Google:

Dirígete a la sección de Credenciales en tu panel de Nappai.
Crea una nueva credencial del tipo Google Gemini y guarda los campos requeridos (como tu clave de API de Google).
En tu flujo de trabajo, selecciona la credencial que guardaste en el campo Credential de este nodo.

Nota: No necesitas configurar claves de API manualmente en cada nodo. Solo asegúrate de tener la credencial lista en tu panel.

Entradas

Modo de Mapeo (Mapping Mode)

Este componente cuenta con un modo especial llamado “Mapping Mode” (Modo de Mapeo). Cuando activas este modo mediante el interruptor, se habilita una entrada adicional llamada “Mapping Data” y cada campo de entrada te ofrece tres formas diferentes de proporcionar datos:

Fixed (Fijo): Escribes el valor directamente en el campo.
Mapped (Mapeado): Conectas la salida de otro componente para usar su resultado como valor.
Javascript: Escribes código Javascript para calcular el valor dinámicamente.

Esta flexibilidad te permite crear flujos de trabajo más dinámicos y conectados.

Campos de Entrada

Los siguientes campos están disponibles para configurar este componente. Cada campo puede estar visible en diferentes operaciones:

Entrada Multimedia: Es la imagen o archivo PDF que quieres leer. Aquí es donde conectas el documento del cual deseas extraer el texto.
Modelo de Visión: Selecciona qué versión del modelo de Google Gemini quieres usar. Diferentes modelos pueden tener distintos niveles de precisión y velocidad.
Tokens Máximos: Define el límite máximo de texto que el modelo puede generar en la respuesta. Útil para controlar la extensión del resultado y gestionar costos.
Parámetros JSON: Un campo avanzado para configurar opciones detalladas en formato de texto (como temperatura o frecuencia de penalización). Si no necesitas ajustes finos, puedes dejarlo vacío.

Salidas

Este componente produce el texto extraído como su resultado principal.

Texto Extraído: Es el bloque de texto que contenía la imagen o el PDF. Este resultado puede conectarse a otros nodos para ser analizado, guardado en bases de datos o enviado a otros procesos.

Ejemplo de Respuesta JSON

json { “text”: “Este es el texto extraído del documento.\n\nPuede contener múltiples párrafos y formateo.\n\nFecha: 01/01/2024”, “metadata”: { “confidence”: 0.98, “page_count”: 1 } }

Conectividad

Este componente suele conectarse lógicamente con nodos que necesiten leer o procesar texto, como por ejemplo:

Modelos de Lenguaje (LLMs): Para analizar o resumir el texto extraído.
Procesadores de Texto: Para limpiar, dividir o formatear la información.
Almacenamiento de Datos: Para guardar el texto extraído en bases de datos o documentos finales.

Es ideal en flujos de trabajo donde primero necesitas “leer” un documento visual antes de tomar una decisión automatizada.

Ejemplo de Uso

Imagina que tienes una automatización para gestionar facturas.

Subes una imagen de una factura.
Conectas la imagen al nodo Gemini OCR.
El nodo extrae el texto de la factura (monto, fecha, proveedor).
Conectas la salida “Texto Extraído” a un asistente de IA que analice los datos.
El sistema guarda automáticamente los datos en tu base de datos de clientes.

En este caso, Gemini OCR es el paso esencial que permite al sistema “leer” la factura para poder procesarla automáticamente.

Consejos y Mejores Prácticas

Calidad de imagen: Para obtener los mejores resultados, asegúrate de que las imágenes o PDFs tengan buena calidad y el texto sea legible.
Control de costos: Usa el campo Tokens Máximos para evitar que el modelo genere respuestas demasiado largas si no las necesitas.
Flujos por lotes: Este componente es eficiente para procesar múltiples documentos. Puedes conectar listas de imágenes y el sistema las procesará en secuencia.

Consideraciones de Seguridad

Gestión de Credenciales: Tu clave de API de Google es un dato sensible. Asegúrate de configurar la credencial en la sección segura de Nappai y nunca compartas el valor de tu API key en el texto del flujo o en el panel de entrada.
Privacidad de Datos: Recuerda que los documentos se envían a los servicios de Google para su procesamiento. Asegúrate de cumplir con las políticas de privacidad de tu organización al subir documentos que contengan información sensible.