Saltearse al contenido

Data Batch Chain

El componente Data Batch Chain permite agrupar grandes volúmenes de datos en lotes y enviarlos a un modelo de lenguaje para su procesamiento. Es útil cuando necesitas procesar muchos registros a la vez sin sobrecargar el modelo ni el sistema.

¿Cómo funciona?

El componente recibe una lista de datos y los divide en grupos según el tamaño que el usuario defina. Cada lote se envía al modelo especificado, respetando el número máximo de peticiones concurrentes (Max Concurrency). Si se activa la opción JSON Flatten, los objetos JSON se aplanan antes de enviarse, lo que facilita la lectura por parte del modelo. Cuando JSON Mode está activado, la respuesta se devuelve en formato JSON. El nombre de la clave que se usará en la salida se especifica con Output key name. Todo el proceso se ejecuta internamente, sin requerir configuraciones externas.

Entradas

  • Data: Datos que se van a agrupar. Pueden ser una lista de registros, un DataFrame o cualquier estructura de datos compatible.
  • Model: El modelo de lenguaje que se utilizará para procesar cada lote. Por ejemplo, un modelo OpenAI o un modelo local.
  • Source data input key: La clave que se usará para extraer los datos de la entrada. Útil cuando los datos están anidados dentro de un objeto.
  • JSON Flatten: Si se marca, los objetos JSON se aplanan antes de enviarse al modelo.
  • JSON Mode: Si se marca, la respuesta del modelo se devuelve en formato JSON.
  • Max Concurrency: Número máximo de peticiones que se enviarán al modelo al mismo tiempo. Ayuda a controlar la carga en el modelo y en la red.
  • Output key name: Nombre de la clave que se usará en la salida para almacenar los resultados procesados.
  • prompt: Texto de la solicitud que se enviará al modelo para cada lote. Puede incluir variables que se sustituyan dinámicamente.

Salidas

  • Data: La salida contiene los datos procesados por el modelo, agrupados en el mismo orden que los lotes originales. El método process_batch se encarga de combinar los resultados y devolverlos como un único objeto.

Ejemplo de Uso

  1. Conecta un componente de origen de datos (por ejemplo, un CSV o una base de datos) al campo Data del Data Batch Chain.
  2. Selecciona el modelo que quieres usar (por ejemplo, gpt-4o-mini) en el campo Model.
  3. Si tus datos están dentro de un objeto, indica la clave con Source data input key.
  4. Ajusta Max Concurrency según la capacidad de tu modelo (por ejemplo, 5 concurrentes).
  5. Opcionalmente, activa JSON Flatten y/o JSON Mode según necesites.
  6. Define el prompt que se enviará a cada lote, por ejemplo:
    "Resume cada registro en una frase corta."
  7. Conecta la salida Data a un componente de almacenamiento o visualización para ver los resultados.

Componentes Relacionados

  • Data Source – Obtiene los datos que se enviarán al batch.
  • LLM Chain – Procesa un único registro con un modelo de lenguaje.
  • Batch Processor – Herramienta genérica para dividir listas en sublistas.

Consejos y Mejores Prácticas

  • Ajusta Max Concurrency para evitar sobrecargar el modelo y cumplir con los límites de tasa de la API.
  • Usa JSON Flatten cuando los registros tengan estructuras anidadas complejas que el modelo no pueda interpretar directamente.
  • Si la respuesta debe ser consumida por otro componente, activa JSON Mode para obtener un objeto JSON estructurado.
  • Revisa el prompt para que sea claro y conciso; un prompt bien formulado reduce la cantidad de tokens necesarios.

Consideraciones de Seguridad

  • Los datos enviados al modelo pueden salir de tu entorno local. Asegúrate de que la información sensible esté anonimizada o cifrada antes de enviarla.
  • Verifica que el modelo elegido cumpla con las políticas de privacidad y protección de datos de tu organización.
  • Si usas un modelo externo, revisa los límites de uso y los costos asociados para evitar sorpresas en la facturación.