Image Understanding

El componente Image Understanding (Comprensión de Imagen) es una herramienta poderosa dentro del sistema Nappai que te permite “ver” y entender el contenido de tus imágenes utilizando la inteligencia artificial de Google Gemini.

En lugar de solo mostrar una foto, este componente puede analizarla para identificar qué hay en ella (como coches, personas o productos), describir la escena completa o incluso recortar y aislar los objetos automáticamente. Es ideal para automatizar procesos donde necesitas extraer información visual de forma rápida y precisa.

¿Cómo funciona?

Este componente actúa como un puente inteligente entre tus imágenes y la avanzada tecnología de IA de Google.

Envío de la imagen: Tú (o un flujo automatizado) le envías una imagen al componente.
Procesamiento con Gemini: La imagen se envía de forma segura a los modelos de Google Gemini (como Gemini 2.0 o 2.5 Flash). La IA “observa” la imagen y la analiza según la instrucción que le hayas dado.
Retorno de resultados: La IA responde con la información solicitada, ya sea una descripción escrita, un listado de objetos encontrados con sus ubicaciones, o incluso nuevas imágenes con los objetos resaltados o recortados.

Nota técnica: El componente está en fase de desarrollo (is_development = True), lo que significa que está optimizado para pruebas y nuevas funcionalidades experimentales.

Conexión y Credenciales

Para que este componente pueda acceder a la inteligencia de Google Gemini, es necesario configurar una credencial de acceso.

Dirígete a la sección de Credenciales en tu panel de Nappai.
Crea una nueva credencial del tipo Google Gemini e ingresa tu Google Api Key.
En la configuración de este nodo, selecciona la credencial que acabas de crear en el campo Credential.

Entradas

Los siguientes campos están disponibles para configurar este componente. Cada campo puede estar visible en diferentes operaciones:

Images: [DataInput] La imagen que deseas analizar. Puede ser subida directamente o provenga de la salida de otro componente anterior en el flujo.
Prompt: [MultilineInput] Instrucciones de texto que guían a la IA sobre qué analizar. Por ejemplo: “Describe esta imagen” o “Detecta todos los coches”.
Model: [REQUERIDO] [DropdownInput] El nombre del modelo de Gemini a utilizar. Se recomienda Gemini 2.5 Flash para un equilibrio entre velocidad y precisión en todas las operaciones.
Tool Function: [REQUERIDO] [DropdownInput] Define la operación principal que deseas realizar:
- Describe Image: Genera una descripción natural en lenguaje del texto de la imagen.
- Object Detection: Detecta objetos y dibuja cajas delimitadoras alrededor de ellos (requiere Gemini 2.0+).
- Segmentation: Detecta objetos con máscaras a nivel de píxel (requiere Gemini 2.5+).
Generate Overlay Image: [BoolInput] Si está activado, generará una imagen de visualización con las cajas delimitadoras o máscaras dibujadas sobre la imagen original. Desactívalo si solo necesitas los datos de detección para ahorrar tiempo de procesamiento.
Extract Individual Objects: [BoolInput] Si está activado, extraerá cada objeto detectado como una imagen recortada individual (en formato base64). Para la segmentación, el fondo de estas imágenes recortadas será transparente.

Salidas

El componente produce una salida principal que contiene los resultados del análisis.

Data: [Any] El resultado procesado. Dependiendo de la operación seleccionada, esto puede contener texto descriptivo, datos JSON con coordenadas de objetos, o imágenes procesadas (como máscaras en base64 o imágenes con superposiciones).

Ejemplo de Respuesta JSON

Si seleccionas la operación Object Detection, la salida “Data” podría estructurarse de la siguiente manera para que puedas usarla en los siguientes pasos de tu flujo: json { “objects”: [ { “label”: “Car”, “confidence”: 0.98, “bounding_box”: [120, 50, 800, 300] }, { “label”: “Person”, “confidence”: 0.95, “bounding_box”: [200, 100, 300, 400] } ], “description”: “A red car parked on a street with a person standing nearby.” }

Conectividad

Este componente se integra generalmente en flujos de automatización que comienzan con la captura o recepción de imágenes.

Entradas: Se conecta comúnmente a salidas de nodos de Recepción de Archivos, Bases de Datos de Imágenes o Webhooks de Imágenes.
Salidas: Los datos de salida (Data) suelen conectarse a:
- Nodos de Procesamiento de Datos o Base de Datos para guardar la información detectada (ej. guardar que se encontró un “Coche Rojo” en un registro).
- Nodos de Generación de Reportes si se usa la descripción textual.
- Nodos de Envío de Imágenes (como correo o Slack) si se activa la opción de generar la imagen con superposición (Overlay).

Ejemplo de Uso

Escenario: Control de Inventario en Almacén

Entrada: Un flujo recibe una foto tomada por un empleado en el almacén.
Configuración:
- Seleccionas Tool Function: Object Detection.
- En Prompt: Escribes “Detecta todas las cajas de cartón”.
- Actívas Extract Individual Objects para obtener cada caja por separado.
Resultado: El componente analiza la foto, detecta las cajas, devuelve las coordenadas de cada una y extrae imágenes individuales de cada caja con el fondo transparente.
Siguiente Paso: Puedes enviar estas imágenes extraídas a un nodo de “Validación por IA” o guardar la lista de cajas detectadas en tu base de datos de inventario.

Consejos y Mejores Prácticas

Modelos Recomendados: Para la mayoría de las tareas, utiliza Gemini 2.5 Flash como se sugiere en las opciones del modelo, ya que ofrece resultados óptimos tanto para detección como para segmentación.
Optimización de Recursos: Si solo necesitas los datos numéricos o JSON (como las coordenadas de los objetos) y no necesitas ver la imagen visualmente resaltada, desactiva la opción Generate Overlay Image. Esto ahorrará tiempo de procesamiento.
Precisión en Segmentación: Para obtener los mejores resultados en la detección de máscaras a nivel de píxel (Segmentation), asegúrate de que el modelo esté configurado adecuadamente (generalmente con thinking_budget=0 para resultados más rápidos y precisos en máscaras).
Manejo de Fondos: Cuando uses Segmentation con Extract Individual Objects activado, recuerda que las imágenes de los objetos extraídos tendrán el fondo transparente, lo cual es útil para composiciones visuales o análisis específicos de forma.

Consideraciones de Seguridad

Claves API: Asegúrate de proteger tu Google Api Key en las credenciales. No compartas esta clave directamente en el código o en chats sin cifrar.
Fase de Desarrollo: Ten en cuenta que el componente está marcado como is_development. En entornos de producción críticos, verifica siempre la estabilidad y disponibilidad del componente antes de integrarlo en flujos automatizados de alto volumen.