Data batch Agent
Data batch Agent
El Data batch Agent es el componente de orquestación diseñado para la gestión de grandes volúmenes de información en la plataforma NappAI. Su función principal es actuar como un gestor de flotas: recibe un conjunto masivo de datos, los fragmenta en lotes (batches) y los distribuye hacia un Worker Agent para su procesamiento paralelo.
Este agente es esencial para transformar flujos de trabajo secuenciales y lentos en sistemas de procesamiento de alto rendimiento, permitiendo enriquecer, validar o transformar miles de registros de forma concurrente bajo políticas de control de recursos.
Casos de Uso Principales
Utilice el Data batch Agent para desarrollar soluciones que requieran:
- Enriquecimiento de Datos a Escala: Procesar archivos CSV o tablas para añadir información mediante IA o consultas a APIs externas.
- Transformación Masiva de Formatos: Convertir grandes volúmenes de datos no estructurados en esquemas JSON normalizados.
- Validación de Lotes: Ejecutar reglas de negocio o de seguridad sobre múltiples registros de forma simultánea.
- Optimización de Tiempos de Ejecución: Reducir el tiempo total de procesamiento al ejecutar múltiples tareas en paralelo mediante la gestión de concurrencia.
Configuración Fundamental
Estos parámetros definen la lógica de distribución y el origen de la información.
| Parámetro | Descripción Técnica | Propósito en el Flujo |
|---|---|---|
Prompt | El texto de instrucción o contexto que se enviará al Worker Agent para guiar su tarea. | Define la directriz de IA que cada “trabajador” debe seguir al procesar su lote individual. |
Data | El payload o conjunto de datos de entrada (CSV, JSON, Tablas) que será procesado. | Es la materia prima. El agente dividirá este conjunto para enviarlo al procesador. |
Worker Agent | La conexión al componente (Agente) que realizará la tarea real en cada lote. | Es el “especialista” que ejecuta la lógica de negocio sobre cada fragmento de datos. |
Funcionalidades Avanzadas (Avanzado)
Estas opciones permiten ajustar el rendimiento del sistema y la estructura final de los datos procesados.
⚙️ Rendimiento y Ejecución
-
Max Concurrency: Define el número máximo de lotes que se procesarán simultáneamente. Ajustar este valor es crítico para balancear la velocidad de procesamiento con la carga de los modelos de lenguaje o APIs externas, evitando cuellos de botella o límites de tasa (rate limits). -
Component ID: Identificador único del componente en el grafo de ejecución, utilizado para trazabilidad y depuración de logs de procesamiento masivo.
🗂️ Output and Formatting: Estructuración de Resultados
-
Output Key Name: Nombre de la clave bajo la cual se guardarán los resultados en el flujo de salida (por defectochain_result). Permite organizar la información para que sea fácilmente consumida por componentes posteriores. -
JSON Mode: Activa la generación de una salida en formato JSON estricto en lugar de una estructura de tabla. Ideal para integraciones con sistemas externos o bases de datos NoSQL. -
JSON Flatten: Middleware que aplana estructuras anidadas. Si el Worker Agent devuelve objetos complejos, esta función los simplifica en pares clave-valor de un solo nivel, facilitando su lectura en hojas de cálculo o bases de datos relacionales.
Salidas del Componente
Data: El conjunto de datos final, consolidado tras el procesamiento de todos los lotes. Representa la unión de todos los resultados devueltos por el Worker Agent en el formato seleccionado (Tabla o JSON).
Consejos y Mejores Prácticas
- Control de Concurrencia: Empiece con un valor bajo de
Max Concurrency(ej. 3 o 5) y auméntelo progresivamente tras verificar que sus servicios externos (APIs de LLM) soportan la carga. - Validación Previa: Antes de procesar un lote de miles de registros, realice una prueba con una pequeña muestra de datos para asegurar que el
Prompty elWorker Agentproducen el resultado deseado. - Uso de Flatten: Active
JSON Flattensi planea exportar los resultados finales a un archivo CSV o Excel, para evitar celdas con datos estructurados difíciles de leer.