Saltearse al contenido

Trustcall Extractor

El Trustcall Extractor es una herramienta que toma información en bruto y la convierte en datos estructurados siguiendo un esquema predefinido. Utiliza un modelo de lenguaje para identificar y extraer los campos relevantes, y luego aplica parches JSON para actualizar o crear registros en tu base de datos de forma segura y consistente.

¿Cómo funciona?

  1. Entrada de datos – El componente recibe el texto o los datos que quieres procesar.
  2. Modelo de lenguaje – Se envía el contenido al modelo seleccionado (por ejemplo, GPT‑4) junto con un prompt que indica cómo debe extraer la información.
  3. Esquema – El modelo interpreta el esquema que le indicas (puede ser un esquema específico, any para varios, o auto para que el modelo elija).
  4. Parche JSON – Una vez que el modelo devuelve los datos extraídos, el componente genera un parche JSON que describe las operaciones de inserción, actualización o eliminación sobre la base de datos.
  5. Salida – El parche se devuelve como un objeto Data y, opcionalmente, se crea una herramienta (BaseTool) que puede ser usada por otros componentes o por el propio flujo de trabajo.

El proceso es completamente local dentro del entorno de Nappai; no se hace ninguna llamada a APIs externas aparte de la que se realiza al modelo de lenguaje.

Entradas

  • Existing Data – Los datos que ya existen en la base de datos y que pueden ser actualizados o eliminados.
  • Input Data – El contenido que quieres analizar y extraer.
  • Model – El modelo de lenguaje que se utilizará para la extracción (por ejemplo, GPT‑4).
  • Schemas – Los esquemas disponibles que definen la estructura de los datos que se pueden extraer.
  • Enable deletes – Si se habilita, el componente eliminará instancias de esquema que ya no estén presentes en los datos extraídos.
  • Enable Inserts – Si se habilita, el componente insertará nuevas instancias de esquema cuando se detecten datos que no existan todavía.
  • Enable updates – Si se habilita, el componente actualizará instancias de esquema existentes con la información nueva.
  • Max Concurrency – Número máximo de lotes que se procesarán simultáneamente, lo que controla el rendimiento y la carga del modelo.
  • prompt – Texto personalizado que guía al modelo sobre cómo extraer la información.
  • Schema to extract – Especifica qué esquema usar: any permite varios, auto deja que el modelo decida.
  • Tool description – Descripción que aparecerá cuando el componente se utilice como herramienta en un flujo.
  • Tool Name – Nombre que se mostrará cuando el componente se use como herramienta.

Salidas

  • Data – Un objeto que contiene los parches JSON listos para aplicar a la base de datos.
  • Tool – Una instancia de BaseTool que puede ser invocada por otros componentes o por el propio flujo de trabajo.

Ejemplo de Uso

  1. Configura el componente

    • Selecciona el modelo GPT‑4.
    • Define el prompt como:
      Extrae la información de contacto (nombre, correo, teléfono) y la dirección de la siguiente entrada.
    • Elige el esquema ContactInfo.
    • Activa Enable Inserts y Enable updates.
    • Deja Enable deletes desactivado para conservar registros antiguos.
  2. Conecta la entrada

    • Conecta la salida de un componente que lee un correo electrónico a Input Data.
    • Conecta la salida de un componente que recupera la base de datos actual a Existing Data.
  3. Ejecuta el flujo

    • El Trustcall Extractor procesa el correo, extrae los campos y genera un parche JSON.
    • La salida Data se envía a un componente de actualización de base de datos que aplica el parche.
  4. Resultado

    • La base de datos se actualiza con la nueva información de contacto sin perder datos anteriores.

Componentes Relacionados

  • DataLoader – Carga datos de fuentes externas (CSV, API, etc.).
  • JSONPatchUpdater – Aplica parches JSON a la base de datos.
  • SchemaValidator – Verifica que los datos extraídos cumplan con el esquema antes de aplicar el parche.

Consejos y Mejores Prácticas

  • Define un prompt claro – Cuanto más específico sea el prompt, más precisa será la extracción.
  • Revisa el esquema – Asegúrate de que el esquema refleje la estructura real de tus datos.
  • Controla la concurrencia – Si trabajas con grandes volúmenes, ajusta Max Concurrency para evitar sobrecargar el modelo.
  • Prueba con datos de muestra – Ejecuta el componente con ejemplos representativos antes de usarlo en producción.
  • Habilita solo las operaciones necesarias – Desactiva Enable deletes si no quieres perder datos antiguos.

Consideraciones de Seguridad

  • Privacidad de datos – Los datos enviados al modelo de lenguaje se procesan en la nube; asegúrate de cumplir con las políticas de privacidad de tu organización.
  • Control de acceso – Limita quién puede configurar y ejecutar el componente para evitar exfiltración accidental de información sensible.
  • Auditoría – Registra las salidas Data y los parches aplicados para poder rastrear cambios en la base de datos.