Trustcall Extractor
El Trustcall Extractor es una herramienta que toma información en bruto y la convierte en datos estructurados siguiendo un esquema predefinido. Utiliza un modelo de lenguaje para identificar y extraer los campos relevantes, y luego aplica parches JSON para actualizar o crear registros en tu base de datos de forma segura y consistente.
¿Cómo funciona?
- Entrada de datos – El componente recibe el texto o los datos que quieres procesar.
- Modelo de lenguaje – Se envía el contenido al modelo seleccionado (por ejemplo, GPT‑4) junto con un prompt que indica cómo debe extraer la información.
- Esquema – El modelo interpreta el esquema que le indicas (puede ser un esquema específico,
any
para varios, oauto
para que el modelo elija). - Parche JSON – Una vez que el modelo devuelve los datos extraídos, el componente genera un parche JSON que describe las operaciones de inserción, actualización o eliminación sobre la base de datos.
- Salida – El parche se devuelve como un objeto
Data
y, opcionalmente, se crea una herramienta (BaseTool
) que puede ser usada por otros componentes o por el propio flujo de trabajo.
El proceso es completamente local dentro del entorno de Nappai; no se hace ninguna llamada a APIs externas aparte de la que se realiza al modelo de lenguaje.
Entradas
- Existing Data – Los datos que ya existen en la base de datos y que pueden ser actualizados o eliminados.
- Input Data – El contenido que quieres analizar y extraer.
- Model – El modelo de lenguaje que se utilizará para la extracción (por ejemplo, GPT‑4).
- Schemas – Los esquemas disponibles que definen la estructura de los datos que se pueden extraer.
- Enable deletes – Si se habilita, el componente eliminará instancias de esquema que ya no estén presentes en los datos extraídos.
- Enable Inserts – Si se habilita, el componente insertará nuevas instancias de esquema cuando se detecten datos que no existan todavía.
- Enable updates – Si se habilita, el componente actualizará instancias de esquema existentes con la información nueva.
- Max Concurrency – Número máximo de lotes que se procesarán simultáneamente, lo que controla el rendimiento y la carga del modelo.
- prompt – Texto personalizado que guía al modelo sobre cómo extraer la información.
- Schema to extract – Especifica qué esquema usar:
any
permite varios,auto
deja que el modelo decida. - Tool description – Descripción que aparecerá cuando el componente se utilice como herramienta en un flujo.
- Tool Name – Nombre que se mostrará cuando el componente se use como herramienta.
Salidas
- Data – Un objeto que contiene los parches JSON listos para aplicar a la base de datos.
- Tool – Una instancia de
BaseTool
que puede ser invocada por otros componentes o por el propio flujo de trabajo.
Ejemplo de Uso
-
Configura el componente
- Selecciona el modelo GPT‑4.
- Define el prompt como:
Extrae la información de contacto (nombre, correo, teléfono) y la dirección de la siguiente entrada.
- Elige el esquema
ContactInfo
. - Activa
Enable Inserts
yEnable updates
. - Deja
Enable deletes
desactivado para conservar registros antiguos.
-
Conecta la entrada
- Conecta la salida de un componente que lee un correo electrónico a
Input Data
. - Conecta la salida de un componente que recupera la base de datos actual a
Existing Data
.
- Conecta la salida de un componente que lee un correo electrónico a
-
Ejecuta el flujo
- El Trustcall Extractor procesa el correo, extrae los campos y genera un parche JSON.
- La salida
Data
se envía a un componente de actualización de base de datos que aplica el parche.
-
Resultado
- La base de datos se actualiza con la nueva información de contacto sin perder datos anteriores.
Componentes Relacionados
- DataLoader – Carga datos de fuentes externas (CSV, API, etc.).
- JSONPatchUpdater – Aplica parches JSON a la base de datos.
- SchemaValidator – Verifica que los datos extraídos cumplan con el esquema antes de aplicar el parche.
Consejos y Mejores Prácticas
- Define un prompt claro – Cuanto más específico sea el prompt, más precisa será la extracción.
- Revisa el esquema – Asegúrate de que el esquema refleje la estructura real de tus datos.
- Controla la concurrencia – Si trabajas con grandes volúmenes, ajusta
Max Concurrency
para evitar sobrecargar el modelo. - Prueba con datos de muestra – Ejecuta el componente con ejemplos representativos antes de usarlo en producción.
- Habilita solo las operaciones necesarias – Desactiva
Enable deletes
si no quieres perder datos antiguos.
Consideraciones de Seguridad
- Privacidad de datos – Los datos enviados al modelo de lenguaje se procesan en la nube; asegúrate de cumplir con las políticas de privacidad de tu organización.
- Control de acceso – Limita quién puede configurar y ejecutar el componente para evitar exfiltración accidental de información sensible.
- Auditoría – Registra las salidas
Data
y los parches aplicados para poder rastrear cambios en la base de datos.