Embed Texts
Embed Texts es un componente sencillo que toma una lista de textos y los transforma en vectores numéricos (embeddings). Estos vectores son útiles para comparar similitudes, realizar búsquedas semánticas o alimentar modelos de IA que requieran una representación numérica de los textos.
¿Cómo funciona?
Internamente, el componente recibe dos entradas:
- texts – Una lista de cadenas de texto que quieres convertir.
- embeddings – Un objeto que implementa la interfaz
Embeddings
. Este objeto contiene el métodoembed_documents
, que procesa cada texto y devuelve un vector de números.
Cuando ejecutas el componente, llama a embeddings.embed_documents(texts)
. El resultado es una lista de vectores que se empaqueta en un objeto Data
con el atributo vector
. Este objeto se devuelve como salida y puede conectarse a otros componentes del dashboard.
Entradas
Campos de Entrada
-
Texts: Una lista de textos que deseas convertir en vectores.
- Visible en: Todas las operaciones (solo hay una operación por defecto).
-
Embeddings: El modelo de embeddings que se usará para generar los vectores.
- Visible en: Todas las operaciones (solo hay una operación por defecto).
Salidas
El componente devuelve un objeto Data
con un atributo llamado vector
. Este atributo contiene la lista de vectores numéricos correspondientes a cada texto de entrada. Puedes usar esta salida para:
- Realizar búsquedas por similitud.
- Almacenar los vectores en una base de datos vectorial.
- Pasar los vectores a otro componente que requiera datos numéricos.
Ejemplo de Uso
Supongamos que quieres comparar descripciones de productos para encontrar los más similares.
- Conecta un componente que recupere las descripciones de tu base de datos y envíe la lista a Texts.
- Selecciona un modelo de embeddings (por ejemplo,
OpenAIEmbeddings
) y conéctalo a Embeddings. - Ejecuta el flujo; la salida será una lista de vectores que puedes usar con un componente de búsqueda o visualización.
Componentes Relacionados
- Embeddings – Define el modelo de embeddings que se usará.
- Vector Search – Busca textos similares usando los vectores generados.
- Similarity Score – Calcula la similitud entre dos vectores.
Consejos y Mejores Prácticas
- Consistencia del modelo: Usa el mismo modelo de embeddings para todos los textos que quieras comparar.
- Tamaño de texto: Si el modelo tiene límite de tokens, corta los textos antes de enviarlos.
- Privacidad: Si los textos contienen datos sensibles, verifica que el modelo de embeddings no los envíe a terceros sin autorización.
Consideraciones de Seguridad
- Datos sensibles: Algunos modelos de embeddings pueden enviar los textos a servicios externos. Asegúrate de que el proveedor cumpla con tus políticas de privacidad.
- Control de acceso: Limita quién puede ejecutar este componente en el dashboard para evitar exfiltración accidental de datos.