Saltearse al contenido

Embed Texts

Embed Texts es un componente sencillo que toma una lista de textos y los transforma en vectores numéricos (embeddings). Estos vectores son útiles para comparar similitudes, realizar búsquedas semánticas o alimentar modelos de IA que requieran una representación numérica de los textos.

¿Cómo funciona?

Internamente, el componente recibe dos entradas:

  1. texts – Una lista de cadenas de texto que quieres convertir.
  2. embeddings – Un objeto que implementa la interfaz Embeddings. Este objeto contiene el método embed_documents, que procesa cada texto y devuelve un vector de números.

Cuando ejecutas el componente, llama a embeddings.embed_documents(texts). El resultado es una lista de vectores que se empaqueta en un objeto Data con el atributo vector. Este objeto se devuelve como salida y puede conectarse a otros componentes del dashboard.

Entradas

Campos de Entrada

  • Texts: Una lista de textos que deseas convertir en vectores.

    • Visible en: Todas las operaciones (solo hay una operación por defecto).
  • Embeddings: El modelo de embeddings que se usará para generar los vectores.

    • Visible en: Todas las operaciones (solo hay una operación por defecto).

Salidas

El componente devuelve un objeto Data con un atributo llamado vector. Este atributo contiene la lista de vectores numéricos correspondientes a cada texto de entrada. Puedes usar esta salida para:

  • Realizar búsquedas por similitud.
  • Almacenar los vectores en una base de datos vectorial.
  • Pasar los vectores a otro componente que requiera datos numéricos.

Ejemplo de Uso

Supongamos que quieres comparar descripciones de productos para encontrar los más similares.

  1. Conecta un componente que recupere las descripciones de tu base de datos y envíe la lista a Texts.
  2. Selecciona un modelo de embeddings (por ejemplo, OpenAIEmbeddings) y conéctalo a Embeddings.
  3. Ejecuta el flujo; la salida será una lista de vectores que puedes usar con un componente de búsqueda o visualización.

Componentes Relacionados

  • Embeddings – Define el modelo de embeddings que se usará.
  • Vector Search – Busca textos similares usando los vectores generados.
  • Similarity Score – Calcula la similitud entre dos vectores.

Consejos y Mejores Prácticas

  • Consistencia del modelo: Usa el mismo modelo de embeddings para todos los textos que quieras comparar.
  • Tamaño de texto: Si el modelo tiene límite de tokens, corta los textos antes de enviarlos.
  • Privacidad: Si los textos contienen datos sensibles, verifica que el modelo de embeddings no los envíe a terceros sin autorización.

Consideraciones de Seguridad

  • Datos sensibles: Algunos modelos de embeddings pueden enviar los textos a servicios externos. Asegúrate de que el proveedor cumpla con tus políticas de privacidad.
  • Control de acceso: Limita quién puede ejecutar este componente en el dashboard para evitar exfiltración accidental de datos.