DeepLake Reader
DeepLake Reader
El componente DeepLake Reader es una puerta de enlace segura entre tu sistema de automatización Nappai y tus datasets alojados en Activeloop DeepLake. Su propósito principal es recuperar registros (datos) desde tu base de datos en la nube o desde un vector store vinculado.
Este componente es ideal si necesitas preparar datos para que otros agentes de IA los analicen, o si deseas realizar búsquedas inteligentes (semánticas) dentro de tus registros guardados. Funciona como un “lector” que extrae la información necesaria para que el resto de tu flujo de trabajo pueda procesarla.
¿Cómo funciona?
Imagina que este componente es como una solicitud de biblioteca: tú le dices qué quieres leer y dónde encontrarlo, y el componente se encarga de ir a buscar esos datos y traértelos.
Internamente, el componente verifica que tengas los permisos correctos (credenciales) y la ubicación exacta de tus datos (el Dataset o Vector Store). Una vez validado, realiza la conexión de forma asíncrona, lo que significa que no bloquea el resto de tu dashboard mientras espera la respuesta.
Puedes interactuar con él de dos maneras principales:
- Lectura General: Simplemente extraes un lote de registros (como “tráeme los últimos 10 clientes”) para procesarlos después.
- Consulta Inteligente: Puedes hacer una pregunta específica. El componente usa tecnología de “embeddings” (representación numérica de textos) para encontrar no solo las palabras clave, sino el significado detrás de tu pregunta, devolviendo solo los registros más relevantes.
Conexión y Credenciales
Este componente requiere configurar previamente una credencial en el panel de Nappai para poder interactuar con el servicio externo:
- Dirígete a la sección de Credenciales en tu panel de Nappai.
- Crea una nueva credencial del tipo DeepLake API y guarda los campos requeridos (Username y DeepLake API Token). Nota: El Token se trata como una contraseña, mantén esta información segura.
- En tu flujo de trabajo, selecciona la credencial guardada en el campo de entrada Credential de este nodo.
Nota importante: No puedes escribir el usuario o el token directamente en el cuerpo del componente; debes usar la credencial previamente creada para garantizar la seguridad de tus datos.
Entradas
Los siguientes campos están disponibles para configurar este componente.
- Vector Store: Referencia a una instancia de un Vector Store existente. Úsalo si quieres leer directamente desde un almacén vectorial en lugar de la URL directa del dataset.
- Dataset path: La ruta o URL exacta al conjunto de datos en DeepLake al que deseas acceder. Es la ubicación principal de tus archivos.
- Query: Una consulta de texto específica. Úsala si deseas que el componente busque información semántica o responda a una pregunta concreta dentro de los datos.
- Max Records: Un número entero que define el límite máximo de registros a recuperar. Por defecto, el sistema devolverá 10 registros para evitar sobrecargas.
- Embedding: Una referencia al modelo de “embeddings” necesario para procesar consultas semánticas. Este campo es crucial si deseas realizar búsquedas inteligentes basadas en significado y no solo en palabras clave.
Salidas
El componente procesa la información y te devuelve resultados listos para ser usados en pasos siguientes de tu automatización.
- Records: Una lista de los datos extraídos directamente. Es útil cuando necesitas una vista general o un lote de datos para analizarlos sin hacer preguntas complejas.
- Query Answer: Una lista de registros específicos que responden a tu
Query. Si usaste una pregunta específica, esta salida contendrá la información que mejor coincida con esa búsqueda.
Ejemplo de Respuesta JSON
Cuando el componente tiene éxito, devuelve datos estructurados. Aquí tienes un ejemplo de cómo se verían los datos en la salida Records o Query Answer:
json
[
{
“id”: “rec_001”,
“field_name”: “Juan Pérez”,
“field_email”: “juan@ejemplo.com”,
“score”: 0.98,
“metadata”: {
“timestamp”: “2023-10-27T10:00:00Z”
}
},
{
“id”: “rec_002”,
“field_name”: “María López”,
“field_email”: “maria@ejemplo.com”,
“score”: 0.95,
“metadata”: {
“timestamp”: “2023-10-26T14:30:00Z”
}
}
]
Nota: Estos datos pueden ser conectados a otros nodos que necesiten leer listas de objetos (como un procesador de texto o una herramienta de envío de correos).
Conectividad
Este componente actúa como una fuente de datos de entrada. Lógicamente, se conecta hacia el nodo de salida de Nappai y se conecta desde nodos que generen o gestionen datos, como:
- Componentes que obtienen credenciales (para el campo Credential).
- Componentes de Vector Stores (para conectar la entrada
Vector Store). - Modelos de Embeddings (para conectar la entrada
Embedding).
Sus salidas (Records y Query Answer) suelen conectarse a nodos de procesamiento de texto, LLMs (para análisis adicional) o tools (para realizar acciones basadas en los datos leídos).
Ejemplo de Uso
Escenario: Analizar comentarios de clientes recientes
- Arrastra el componente DeepLake Reader a tu flujo.
- Configura el Dataset path con la URL de tus datos de clientes.
- Selecciona tu credencial DeepLake API creada anteriormente.
- En el campo Query, escribe: “Comentarios positivos sobre el servicio al cliente”.
- Conecta la salida Query Answer a un nodo de Generación de Resumen para crear un reporte final.
En este flujo, el componente buscará únicamente los comentarios que tengan un sentimiento positivo y los entregará listos para ser resumidos.
Notas Importantes
🔒 Protege Tu Token de API Do not expose the DeepLake API token in shared flows or logs. Treat it like a password and keep it confidential.
⚠️ Maximum Record Count The component only returns up to the number specified in Max Records (default 10). Larger datasets will be truncated, so adjust this value if you need more records.
📋 DeepLake Library Installation Before using the component, install the DeepLake Python library and its dependencies. This is required for the component to communicate with the dataset.
📋 Correct Dataset Path Provide the exact DeepLake dataset URL or local path. A wrong path will result in a fetch error and no records returned.
⚠️ DeepLake‑Only Data Source This component reads only from a DeepLake dataset. It cannot process local files or other storage types, so ensure your data is hosted on DeepLake.
⚙️ Component in Development The component is marked as in development, which may mean occasional bugs or changes. Use it with caution in production workflows.
ℹ️ Records Returned as Data Objects The component outputs a list of Data objects, each containing the record fields and metadata. Map these fields appropriately when consuming the output.
ℹ️ Runtime Errors Are Propagated If the component cannot fetch records, it raises a RuntimeError with a clear message. Check the error details to troubleshoot issues.
⚠️ Requires DeepLake Credentials A valid DeepLake username and API token must be supplied. Without them, the component cannot access the dataset and will fail.
Consejos y Mejores Prácticas
- Controla el volumen de datos: Ajusta el campo
Max Recordsa un límite sensato para evitar un uso alto de memoria y tiempos de carga largos. - Usa consultas específicas: Para obtener resultados más rápidos y precisos, proporciona una
Queryenfocada en lugar de dejarla vacía o muy general. - Aprovecha la búsqueda semántica: Si necesitas encontrar información basada en el significado y no solo en palabras exactas, asegúrate de proporcionar la entrada
Embedding. - Mantén la seguridad: Asegúrate de que tu conexión a DeepLake utilice HTTPS para proteger tus credenciales y datos en tránsito.
Consideraciones de Seguridad
Dado que este componente maneja credenciales de API (Username y DeepLake API Token), es vital no compartir flujos de trabajo públicamente sin haber anonimizado o revisado la configuración de credenciales. El token actúa como una llave maestra de tus datos; compártelo solo con usuarios de confianza y nunca lo incluyas en el código visible de manera pública.