Saltearse al contenido

DeepLake Writer

Bienvenido al componente DeepLake Writer dentro de Nappai. Este nodo actúa como un guardián esencial para tu información, permitiéndote gestionar tus “almacenes de datos” (datasets) en Activeloop DeepLake. Piensa en él como un asistente administrativo que puede crear nuevas carpetas digitales, borrar las que ya no necesitas o añadir y modificar documentos dentro de ellas.

Es una herramienta fundamental si necesitas organizar datos para que otros sistemas de IA puedan buscarlos y utilizarlos más tarde.

¿Cómo funciona?

Este componente se conecta directamente con el servicio de almacenamiento de DeepLake. Internamente, primero verifica tu identidad para asegurarse de que tienes permiso para trabajar con los datos. Una vez dentro, utiliza una lógica de “interruptor” basada en lo que necesites hacer:

  1. Creación: Si elegiste crear un nuevo dataset, el componente prepara el espacio en el servidor y, si le has proporcionado datos iniciales, los coloca allí automáticamente.
  2. Eliminación: Si decides borrar un dataset, el componente envía la orden de borrado permanente al servidor.
  3. Actualización: Si deseas añadir nuevos registros o corregir los existentes, el componente toma esa información y la integra en tu dataset actual.

Al finalizar, te envía un mensaje de confirmación indicando si la tarea fue exitosa, como por ejemplo: “Dataset ‘ruta/datos’ creado con éxito”.

Conexión y Credenciales

Este componente requiere configurar previamente una credencial en el panel de Nappai para poder interactuar con el servicio externo:

  1. Dirígete a la sección de Credenciales en tu panel de Nappai.
  2. Crea una nueva credencial del tipo DeepLake API y guarda los campos requeridos (Username y Token).
  3. En tu flujo de trabajo, selecciona la credencial guardada en el campo de entrada Credential de este nodo.

Entradas

Los siguientes campos están disponibles para configurar este componente. Cada campo es necesario para asegurar que el componente sepa qué hacer y con qué datos trabajar:

  • Dataset path: Es la dirección única (URL o ruta) de tu conjunto de datos en DeepLake. Aquí es donde se guardará la información.
  • Action to Dataset: Un menú desplegable que decide la acción principal: crear un dataset nuevo, eliminar uno existente o preparar el entorno para actualizar datos (GET).
  • Data: La información que deseas guardar. Puede ser texto, mensajes o estructuras de datos complejas.
  • Action to Data: Si estás modificando datos existentes (acción GET), este menú decide si los vas a “Añadir al dataset” o “Actualizar” en lugar de crearlos desde cero.
  • Embedding: Un modelo de inteligencia artificial que traduce tus datos en un formato matemático para que puedan ser buscados eficientemente.
  • Retriever: Una herramienta que funciona como un sistema de recuperación para interactuar con el dataset.
  • Vector Store: El almacén vectorial de origen del cual se leerán o gestionarán los datos.
  • Token: La llave de acceso (token) de tu cuenta de DeepLake para autenticación segura.
  • Username: Tu nombre de usuario en la plataforma Activeloop/DeepLake.

Salidas

Cuando el componente termina de trabajar, produce una sola salida:

  • Result: Un mensaje de estado (Data) que te dice qué sucedió. Por ejemplo, un texto que confirma que el dataset fue creado o eliminado correctamente. Este mensaje puedes conectarlo a otros nodos para registrar el éxito o el fallo de la operación en tu flujo de automatización.

Ejemplo de Respuesta JSON

A continuación, un ejemplo de cómo se vería la información de salida en formato JSON cuando la operación tiene éxito (por ejemplo, al crear un dataset): json { “message”: “Dataset ‘user_folder/my_project_data’ created successfully.” }

O, en caso de eliminación: json { “message”: “Dataset ‘user_folder/old_data’ deleted successfully.” }

Conectividad

Este componente es un nodo de gestión, por lo que su conexión lógica suele ser la siguiente:

  • Entradas: Recibe datos de componentes de extracción de información o de transformación de texto. También se conecta a componentes de Embedding que preparan el texto para ser indexado.
  • Salidas: El Result se conecta frecuentemente a nodos de registro de actividad (logging), a sistemas de notificación (como Slack o correo) para avisar que la tarea se completó, o simplemente actúa como un “check” para que el flujo continúe con pasos posteriores que necesiten que los datos ya existan.

Ejemplo de Uso

Imagina que estás automatizando la gestión de documentos para una empresa en Nappai.

  1. Escenario: Quieres crear una nueva base de conocimientos para un proyecto llamado “Proyecto Alpha”.
  2. Configuración:
    • En Dataset path, escribes company/alpha_project.
    • En Action to Dataset, seleccionas CREATE.
    • En Data, conectas el texto extraído de los documentos de la empresa.
  3. Resultado: El componente crea la carpeta digital en DeepLake y guarda los textos dentro. Si todo sale bien, la salida Result dirá “Dataset created successfully”, indicando al resto de tu sistema que ya puede empezar a leer esos datos.

Notas Importantes

⚠️ Dataset deletion is irreversible 🔴 Choosing DELETE will permanently remove the dataset and all its contents. There is no undo; make sure you have backups if needed.

🔒 Protect your DeepLake API token 🔴 Do not expose the token in public notebooks or logs. Store it securely and limit its scope.

📋 Valid DeepLake credentials required 🔴 Provide your Deeplake username and API token; without them the component cannot connect to your dataset.

📋 Dataset path must be unique 🟡 The dataset_path should not conflict with existing datasets unless you intend to overwrite. Duplicate paths may cause errors.

ℹ️ GET action only updates or adds data 🟡 The GET option does not retrieve dataset content; it can only add or update records. To view dataset, use a separate retrieval component.

ℹ️ Async execution may affect flow 🟡 The component runs asynchronously; ensure your workflow supports async operations to avoid timing issues.

🛠️ Specify action_to_data when using GET 🟡 When performing a GET action, set action_to_data to either ADD TO DATASET or UPDATE DATASET; the default value may not work.

🛠️ Data input types supported 🟢 You can pass lists of Data, Message, or Text objects for batch operations. Ensure the data format matches your dataset schema.

💡 Use embeddings for richer data indexing 🟢 Supply an embeddings model via the Embedding input; this improves search quality and retrieval speed.

Consejos y Mejores Prácticas

  • Antes de Borrar: Siempre verifica la ruta del dataset (Dataset path) antes de seleccionar DELETE. La operación es instantánea e irreversible.
  • Seguridad: Nunca compartas capturas de pantalla de tu configuración donde se vea tu API Token.
  • Flujo de Trabajo: Si planeas añadir datos a un dataset existente, asegúrate de seleccionar la opción GET en la acción principal y luego configurar ADD TO DATASET en la acción secundaria.

Consideraciones de Seguridad

Debido a que este componente maneja credenciales de API y tokems de acceso, es vital que protejas tu sesión de Nappai. Asegúrate de que solo usuarios autorizados puedan editar los flujos de trabajo que contienen este componente, ya que un mal uso de las credenciales podría permitir el acceso no autorizado a tus almacenes de datos en DeepLake.