Trustcall Extractor

El Trustcall Extractor es una herramienta que toma información en bruto y la convierte en datos estructurados siguiendo un esquema predefinido. Utiliza un modelo de lenguaje para identificar y extraer los campos relevantes, y luego aplica parches JSON para actualizar o crear registros en tu base de datos de forma segura y consistente.

¿Cómo funciona?

Entrada de datos – El componente recibe el texto o los datos que quieres procesar.
Modelo de lenguaje – Se envía el contenido al modelo seleccionado (por ejemplo, GPT‑4) junto con un prompt que indica cómo debe extraer la información.
Esquema – El modelo interpreta el esquema que le indicas (puede ser un esquema específico, any para varios, o auto para que el modelo elija).
Parche JSON – Una vez que el modelo devuelve los datos extraídos, el componente genera un parche JSON que describe las operaciones de inserción, actualización o eliminación sobre la base de datos.
Salida – El parche se devuelve como un objeto Data y, opcionalmente, se crea una herramienta (BaseTool) que puede ser usada por otros componentes o por el propio flujo de trabajo.

El proceso es completamente local dentro del entorno de Nappai; no se hace ninguna llamada a APIs externas aparte de la que se realiza al modelo de lenguaje.

Entradas

Existing Data – Los datos que ya existen en la base de datos y que pueden ser actualizados o eliminados.
Input Data – El contenido que quieres analizar y extraer.
Model – El modelo de lenguaje que se utilizará para la extracción (por ejemplo, GPT‑4).
Schemas – Los esquemas disponibles que definen la estructura de los datos que se pueden extraer.
Enable deletes – Si se habilita, el componente eliminará instancias de esquema que ya no estén presentes en los datos extraídos.
Enable Inserts – Si se habilita, el componente insertará nuevas instancias de esquema cuando se detecten datos que no existan todavía.
Enable updates – Si se habilita, el componente actualizará instancias de esquema existentes con la información nueva.
Max Concurrency – Número máximo de lotes que se procesarán simultáneamente, lo que controla el rendimiento y la carga del modelo.
prompt – Texto personalizado que guía al modelo sobre cómo extraer la información.
Schema to extract – Especifica qué esquema usar: any permite varios, auto deja que el modelo decida.
Tool description – Descripción que aparecerá cuando el componente se utilice como herramienta en un flujo.
Tool Name – Nombre que se mostrará cuando el componente se use como herramienta.

Salidas

Data – Un objeto que contiene los parches JSON listos para aplicar a la base de datos.
Tool – Una instancia de BaseTool que puede ser invocada por otros componentes o por el propio flujo de trabajo.

Ejemplo de Uso

Configura el componente
- Selecciona el modelo GPT‑4.
- Define el prompt como:
```
Extrae la información de contacto (nombre, correo, teléfono) y la dirección de la siguiente entrada.
```
- Elige el esquema ContactInfo.
- Activa Enable Inserts y Enable updates.
- Deja Enable deletes desactivado para conservar registros antiguos.
Conecta la entrada
- Conecta la salida de un componente que lee un correo electrónico a Input Data.
- Conecta la salida de un componente que recupera la base de datos actual a Existing Data.
Ejecuta el flujo
- El Trustcall Extractor procesa el correo, extrae los campos y genera un parche JSON.
- La salida Data se envía a un componente de actualización de base de datos que aplica el parche.
Resultado
- La base de datos se actualiza con la nueva información de contacto sin perder datos anteriores.

Componentes Relacionados

DataLoader – Carga datos de fuentes externas (CSV, API, etc.).
JSONPatchUpdater – Aplica parches JSON a la base de datos.
SchemaValidator – Verifica que los datos extraídos cumplan con el esquema antes de aplicar el parche.

Consejos y Mejores Prácticas

Define un prompt claro – Cuanto más específico sea el prompt, más precisa será la extracción.
Revisa el esquema – Asegúrate de que el esquema refleje la estructura real de tus datos.
Controla la concurrencia – Si trabajas con grandes volúmenes, ajusta Max Concurrency para evitar sobrecargar el modelo.
Prueba con datos de muestra – Ejecuta el componente con ejemplos representativos antes de usarlo en producción.
Habilita solo las operaciones necesarias – Desactiva Enable deletes si no quieres perder datos antiguos.

Consideraciones de Seguridad

Privacidad de datos – Los datos enviados al modelo de lenguaje se procesan en la nube; asegúrate de cumplir con las políticas de privacidad de tu organización.
Control de acceso – Limita quién puede configurar y ejecutar el componente para evitar exfiltración accidental de información sensible.
Auditoría – Registra las salidas Data y los parches aplicados para poder rastrear cambios en la base de datos.