Embedding Similarity
Embedding Similarity es un componente que compara dos vectores de embedding y devuelve una medida de similitud. Se usa en el dashboard de Nappai para evaluar cuán parecidos son dos representaciones numéricas de textos, imágenes u otros datos.
¿Cómo funciona?
El componente recibe exactamente dos objetos de datos que contienen vectores de embedding. Internamente convierte esos vectores a arreglos NumPy y, según la métrica seleccionada, calcula:
- Cosine Similarity: mide el ángulo entre los vectores.
- Euclidean Distance: calcula la distancia euclidiana (distancia “recta”).
- Manhattan Distance: suma las diferencias absolutas de cada dimensión.
El resultado se empaqueta en un objeto Data
que incluye los dos vectores originales y la puntuación de similitud. No se llama a ningún servicio externo; todo el cálculo se hace localmente en el servidor de Nappai.
Entradas
Campos de Entrada
- Embedding Vectors: Una lista que debe contener exactamente dos objetos de datos con vectores de embedding para comparar.
- Similarity Metric: Selecciona la métrica de similitud que se utilizará (Cosine Similarity, Euclidean Distance o Manhattan Distance).
Salidas
- Similarity Data: Un objeto
Data
que contiene:embedding_1
yembedding_2
: los vectores originales.similarity_score
: un diccionario con la métrica elegida y su valor (por ejemplo,{"cosine_similarity": 0.87}
).
Esta salida puede conectarse a otros componentes, como visualizaciones de gráficos o filtros de búsqueda, para usar la puntuación de similitud en el flujo de trabajo.
Ejemplo de Uso
- Generar embeddings: Conecta un componente que produzca embeddings de dos textos o imágenes.
- Configurar Embedding Similarity:
- Arrastra el componente al lienzo.
- Conecta la salida de los embeddings a la entrada Embedding Vectors.
- Selecciona la métrica deseada en Similarity Metric (por ejemplo, Cosine Similarity).
- Visualizar el resultado: Conecta la salida Similarity Data a un componente de visualización (por ejemplo, un gráfico de barras) para mostrar la puntuación de similitud.
Componentes Relacionados
- Embedding Generator – Crea los vectores de embedding que se usarán aquí.
- Similarity Search – Busca documentos similares usando la métrica de similitud.
- Data Visualizer – Muestra resultados numéricos en gráficos o tablas.
Consejos y Mejores Prácticas
- Asegúrate de que ambos embeddings tengan la misma dimensión; de lo contrario, el componente devolverá un error.
- Elige la métrica adecuada: Cosine Similarity es común para textos, mientras que Euclidean y Manhattan pueden ser útiles para datos numéricos.
- Revisa la escala de los embeddings: Si los vectores están normalizados, los resultados de Cosine Similarity estarán entre -1 y 1.
- Usa filtros: Si solo te interesan similitudes superiores a un umbral, combina este componente con un filtro de condición.
Consideraciones de Seguridad
- Los embeddings pueden contener información sensible derivada de tus datos originales.
- Mantén los datos de entrada y salida en canales seguros y evita exponerlos públicamente.
- Si trabajas con datos regulados, verifica que el procesamiento de embeddings cumpla con las políticas de privacidad y protección de datos de tu organización.