Saltearse al contenido

Deeplake Database

Deeplake Database es un componente de Nappai que te permite guardar y recuperar documentos de forma rápida y eficiente usando la base de datos vectorial DeepLake. Con él puedes añadir nuevos documentos, buscar los más relevantes según una consulta o simplemente obtener un objeto que puedas usar para búsquedas más avanzadas dentro de tu flujo de trabajo.

¿Cómo funciona?

El componente se conecta a tu cuenta de DeepLake mediante una credencial que ya has configurado en Nappai. Cuando eliges la operación Add, el componente convierte los datos que le envías en documentos y los sube al dataset especificado. Si seleccionas Search, envía tu consulta a DeepLake y devuelve los documentos más similares. Con Retriever simplemente crea un objeto que puedes usar en otras partes de tu flujo para hacer búsquedas personalizadas. Todo el proceso se hace a través de la API de DeepLake, por lo que no necesitas preocuparte por la infraestructura subyacente.

Operaciones

Este componente ofrece varias operaciones que puedes seleccionar según lo que necesites hacer. Solo puedes usar una operación a la vez:

  • Add: Añade nuevos documentos al dataset de DeepLake.
  • Search: Busca los documentos más relevantes según una consulta de texto.
  • Retriever: Crea un objeto de búsqueda que puede usarse en otras partes del flujo.

Para usar el componente, primero selecciona la operación que necesitas en el campo “Operation” (Operación).

Entradas

Para usar Deeplake Database necesitas configurar una credencial de tipo DeepLake API en la sección de credenciales de Nappai y luego seleccionarla en el campo Credential del componente.

Campos de Entrada

  • Embedding: Define el modelo de embeddings que se usará para convertir los textos en vectores.

    • Visible en: Add, Search, Retriever
  • Ingest Data: Los datos que quieres añadir al dataset cuando usas la operación Add.

    • Visible en: Add
  • Operation: Selecciona la operación que quieres ejecutar (Add, Search o Retriever).

    • Visible en: Add, Search, Retriever
  • Dataset path: La ruta o URL del dataset de DeepLake donde se guardarán o buscarán los documentos.

    • Visible en: Add, Search, Retriever
  • Number of Results: Número de documentos que quieres que se devuelvan en una búsqueda.

    • Visible en: Add, Search, Retriever
  • Search Query: Texto que quieres usar para buscar documentos. Si lo dejas vacío, se devolverán todos los documentos.

    • Visible en: Search

Salidas

  • Retriever: Un objeto que permite realizar búsquedas personalizadas dentro de tu flujo de trabajo.
  • Results: Una lista de documentos encontrados que puedes usar directamente en tu flujo.
  • Vector Store: El objeto de la base de datos vectorial que representa el dataset de DeepLake.

Ejemplo de Uso

Operación Add

  1. Selecciona Add en el campo Operation.
  2. En Embedding elige el modelo de embeddings que prefieras.
  3. En Ingest Data carga los archivos o textos que quieres añadir.
  4. En Dataset path escribe la ruta de tu dataset (por ejemplo, https://deeplake.ai/datasets/mi_dataset).
  5. Haz clic en Run. Los documentos se subirán y aparecerá el objeto Vector Store en la salida.
  1. Selecciona Search en el campo Operation.
  2. En Embedding elige el mismo modelo que usaste al añadir los datos.
  3. En Search Query escribe la pregunta o frase que quieres buscar.
  4. En Dataset path indica la ruta del dataset.
  5. Haz clic en Run. Los resultados aparecerán en la salida Results.

Operación Retriever

  1. Selecciona Retriever en el campo Operation.
  2. Configura Embedding, Dataset path y Number of Results según tus necesidades.
  3. Haz clic en Run. Obtendrás un objeto Retriever que puedes usar en otros componentes de búsqueda.

Componentes Relacionados

  • OpenAI Vector Store – Almacena y busca documentos usando embeddings de OpenAI.
  • FAISS Vector Store – Base de datos vectorial local para búsquedas rápidas.
  • Chroma Vector Store – Otra opción de almacenamiento vectorial con soporte para embeddings personalizados.

Consejos y Mejores Prácticas

  • Asegúrate de que el Dataset path sea correcto y que tengas permisos de escritura cuando uses Add.
  • Usa embeddings de alta calidad (por ejemplo, text-embedding-ada-002) para obtener mejores resultados de búsqueda.
  • Si trabajas con datos sensibles, revisa la política de privacidad de DeepLake y mantén tu token seguro.

Consideraciones de Seguridad

  • La credencial DeepLake API contiene tu token de acceso; no lo compartas públicamente.
  • Cuando uses la operación Add, verifica que los datos que subes no contengan información confidencial sin cifrar.
  • Si tu flujo se ejecuta en un entorno compartido, considera revocar y regenerar el token periódicamente.