Modelo Gemma 4

Este componente actúa como el cerebro local de tu flujo de trabajo en Nappai. Permite utilizar el modelo de lenguaje Gemma 4 directamente en tu dispositivo sin necesidad de conectarse a internet ni utilizar claves de API externas. Ideal para garantizar la privacidad de tus datos y trabajar de forma rápida y eficiente.

¿Cómo funciona?

El componente Modelo Gemma 4 prepara una versión optimizada y ligera del modelo de Google para que funcione en tu propio hardware (tu computadora o servidor).

Cuando inicias un flujo de trabajo, este componente:

Descarga automáticamente la versión del modelo que elijas desde internet (solo la primera vez).
Configura la memoria de tu computadora o dispositivo para manejar el modelo de forma eficiente.
Entrega el modelo listo para usar, de modo que otros nodos en tu flujo puedan pedirle que escriba textos, analice información o responda preguntas.

Piensa en este componente como la preparación del “motor” antes de ponerlo en marcha. Una vez configurado, el modelo está listo para recibir mensajes y generar respuestas basadas en tu configuración.

Entradas

Los siguientes campos están disponibles para configurar este componente:

Model variant (Variante del modelo): Permite elegir qué tan grande y complejo será el modelo.
- E2B (2B, ~736 MB CPU): Más ligero y rápido. Recomendado para la mayoría de los usuarios o dispositivos con menos recursos.
- E4B (4B): Más potente y preciso, pero consume más memoria RAM.
- Visible en: Flujo general
Backend (Dispositivo de procesamiento): Define qué parte de tu hardware procesará la información.
- cpu: Menor consumo de memoria, funciona en la mayoría de los dispositivos.
- gpu: Mayor velocidad de respuesta, ideal para dispositivos Apple Silicon (M1, M2, etc.).
- Visible en: Flujo general
Temperature (Temperatura): Controla qué tan creativas o precisas serán las respuestas.
- Valores bajos (ej. 0.1): Respuestas más precisas y directas.
- Valores altos: Respuestas más creativas y variadas.
- Visible en: Flujo general
Top K: Limita el número de opciones posibles que el modelo considera en cada paso. Ayuda a reducir respuestas poco probables.
- Visible en: Flujo general
Top P: Similar a Top K, pero ajusta la selección basándose en la probabilidad acumulada.
- Visible en: Flujo general
Context window (Ventana de contexto): Establece la cantidad total de texto (entrada + salida) que el modelo puede “recordar” en una sola conversación.
- Visible en: Flujo general
Enable thinking (Habilitar pensamiento): Activa una capacidad de razonamiento interno. El modelo “piensa” antes de responder, lo que mejora la precisión en tareas complejas.
- Visible en: Flujo general
Thinking budget (Presupuesto de pensamiento): Define cuántos recursos puede usar el modelo para el proceso de “pensamiento” anterior.
- Visible en: Flujo general
Custom model path (Ruta de modelo personalizada): Si tienes un archivo de modelo local en tu computadora, puedes indicarle la ruta exacta para que use ese archivo en lugar de descargar uno nuevo.
- Visible en: Flujo general

Salidas

Instancia del Modelo de Lenguaje: El componente no devuelve un texto directo, sino una “instancia” o un objeto listo para usar. Esta salida se conecta a otros componentes (como respuestas de chat o agentes) para decirles “este es el modelo que debes usar”.

Ejemplo de Respuesta JSON

El componente devuelve un objeto interno que no suele verse en JSON crudo en la interfaz, pero su estructura básica de uso se vería así en la lógica del sistema: json { “model_instance”: “ChatGemma4LiteRT Instance”, “status”: “ready_for_generation”, “backend”: “cpu” } Nota: En la práctica, arrastrarás la salida de este componente hacia la entrada de un componente de “Chat” o “Agent”.

Conectividad

Este componente se conecta principalmente como entrada a otros nodos que necesitan “inteligencia” para funcionar.

Conexión a Componentes de Chat/AI: La salida de Modelo Gemma 4 debe conectarse a componentes como “LLM Chain”, “Chat” o “Agent”. Esto es necesario porque estos componentes necesitan saber qué “cerebro” (modelo) usar para procesar los textos y generar respuestas.
No es necesario conectar entradas de otros nodos: Este componente solo requiere configuración (se llena a mano), no recibe datos de flujo de otros nodos.

Ejemplo de Uso

Imagina que estás creando un asistente para responder preguntas sobre documentos internos de tu empresa.

Arrastras el componente Modelo Gemma 4 a tu lienzo.
Configuras la Variante del modelo a E2B (para que sea rápido).
Configuras el Backend a cpu (porque usas una laptop estándar).
Conectas la salida (el punto derecho del nodo) a la entrada de un componente Respuesta de Chat.
Cuando un usuario escribe una pregunta, el componente Gemma 4 procesa la pregunta internamente y envía la respuesta al componente de Chat, quien la muestra en pantalla.

Consejos y Mejores Prácticas

Empieza ligero: Usa siempre la variante E2B primero. Es suficiente para la mayoría de las tareas y consume menos memoria.
Controla la creatividad: Si necesitas hechos precisos (ej. datos técnicos), mantén la Temperature baja (cerca de 0.1). Para crear historias o ideas, sube la temperatura.
Habilitar el “Pensamiento”: Usa la opción Enable thinking solo si las tareas son complejas (ej. resolver un problema lógico difícil). Esto consume más tiempo y memoria, pero mejora la calidad.
Apple Silicon: Si tienes un Mac con chip M1/M2/M3, el backend gpu ofrece una velocidad significativamente mayor.

Consideraciones de Seguridad

Privacidad Total: Al usar Gemma 4 localmente, tus datos no salen de tu dispositivo. No se envían a servidores externos de Google ni a la nube, lo que garantiza la confidencialidad de la información procesada.
Requisitos de Hardware: Asegúrate de que tu computadora tenga suficiente memoria RAM. Usar el modelo E4B con el backend gpu puede requerir hasta 1.6 GB de RAM libre para funcionar correctamente sin errores.