Saltearse al contenido

Astra Vectorize

El componente Astra Vectorize te permite elegir un proveedor de embeddings y un modelo para convertir textos en vectores numéricos. Estos vectores pueden usarse en búsquedas semánticas, análisis de similitud o como entrada para modelos de IA dentro de Nappai.

¿Cómo funciona?

Internamente el componente crea una configuración que incluye:

  • Proveedor: el servicio de embeddings que usarás (Azure OpenAI, Hugging Face, OpenAI, etc.).
  • Modelo: el nombre del modelo de embeddings dentro del proveedor seleccionado.
  • Parámetros de autenticación: credenciales y ajustes necesarios para acceder al servicio.

Cuando el flujo se ejecuta, esta configuración se envía al servidor Astra Vectorize, que devuelve los vectores de embedding. El componente no realiza ninguna operación de cálculo por sí mismo; simplemente prepara la solicitud que el backend de Nappai enviará al servicio.

Entradas

Antes de usar el componente, debes:

  1. Configurar una credencial de tipo DATASTAX Api en la sección de credenciales de Nappai.
  2. Seleccionar esa credencial en el campo Credential del componente.

Campos de Entrada

  • Provider: Selecciona el proveedor de embeddings que deseas usar. Cada proveedor ofrece una lista de modelos disponibles.
  • Model Name: Especifica el nombre del modelo de embeddings dentro del proveedor seleccionado. La lista completa de modelos se muestra en la información del campo.
  • Model Parameters: Parámetros adicionales que el modelo puede aceptar (por ejemplo, tamaño del lote, longitud máxima). Este campo es opcional y se usa para personalizar la llamada al servicio.

Salidas

  • Vectorize: Un diccionario (dict) que contiene la configuración completa que se enviará al servicio Astra Vectorize. Este objeto se puede usar en componentes posteriores que requieran la configuración de embeddings.

Ejemplo de Uso

Supongamos que quieres generar embeddings para descripciones de productos en una tienda online:

  1. Credencial: Selecciona la credencial DATASTAX Api que ya has creado.
  2. Provider: Elige OpenAI.
  3. Model Name: Introduce text-embedding-3-large.
  4. Model Parameters: Deja vacío o añade parámetros como max_length: 512.
  5. Conecta la salida Vectorize a un componente que envíe los textos a Astra Vectorize y almacene los vectores en una colección.

El flujo resultante enviará la configuración al servicio y obtendrá los vectores listos para usar en búsquedas o análisis.

Componentes Relacionados

  • Astra Collection – Almacena los vectores generados en una colección de Astra DB.
  • Astra Search – Realiza búsquedas semánticas usando los vectores creados por Astra Vectorize.
  • Astra Query – Ejecuta consultas sobre la colección que contiene los embeddings.

Consejos y Mejores Prácticas

  • Elige el modelo correcto: Los modelos más grandes suelen ofrecer mayor precisión pero consumen más recursos.
  • Revisa la lista de modelos: Cada proveedor tiene modelos específicos; asegúrate de usar el nombre exacto.
  • Usa parámetros de modelo con cuidado: Ajustes como max_length pueden afectar el rendimiento y la calidad de los embeddings.
  • Mantén la credencial actualizada: Si cambias la clave API, actualiza la credencial en Nappai para evitar errores de autenticación.

Consideraciones de Seguridad

  • La credencial DATASTAX Api contiene la clave API y los parámetros de autenticación. Asegúrate de que solo usuarios autorizados tengan acceso a esta credencial.
  • Los campos avanzados (provider_api_key, authentication, model_parameters) permiten pasar credenciales directamente; úsalos solo cuando sea necesario y con precaución.
  • No compartas la salida Vectorize en lugares públicos, ya que contiene información sensible sobre la configuración de tu servicio de embeddings.