Saltearse al contenido

Embedding Similarity

Embedding Similarity es un componente que compara dos vectores de embedding y devuelve una medida de similitud. Se usa en el dashboard de Nappai para evaluar cuán parecidos son dos representaciones numéricas de textos, imágenes u otros datos.

¿Cómo funciona?

El componente recibe exactamente dos objetos de datos que contienen vectores de embedding. Internamente convierte esos vectores a arreglos NumPy y, según la métrica seleccionada, calcula:

  • Cosine Similarity: mide el ángulo entre los vectores.
  • Euclidean Distance: calcula la distancia euclidiana (distancia “recta”).
  • Manhattan Distance: suma las diferencias absolutas de cada dimensión.

El resultado se empaqueta en un objeto Data que incluye los dos vectores originales y la puntuación de similitud. No se llama a ningún servicio externo; todo el cálculo se hace localmente en el servidor de Nappai.

Entradas

Campos de Entrada

  • Embedding Vectors: Una lista que debe contener exactamente dos objetos de datos con vectores de embedding para comparar.
  • Similarity Metric: Selecciona la métrica de similitud que se utilizará (Cosine Similarity, Euclidean Distance o Manhattan Distance).

Salidas

  • Similarity Data: Un objeto Data que contiene:
    • embedding_1 y embedding_2: los vectores originales.
    • similarity_score: un diccionario con la métrica elegida y su valor (por ejemplo, {"cosine_similarity": 0.87}).

Esta salida puede conectarse a otros componentes, como visualizaciones de gráficos o filtros de búsqueda, para usar la puntuación de similitud en el flujo de trabajo.

Ejemplo de Uso

  1. Generar embeddings: Conecta un componente que produzca embeddings de dos textos o imágenes.
  2. Configurar Embedding Similarity:
    • Arrastra el componente al lienzo.
    • Conecta la salida de los embeddings a la entrada Embedding Vectors.
    • Selecciona la métrica deseada en Similarity Metric (por ejemplo, Cosine Similarity).
  3. Visualizar el resultado: Conecta la salida Similarity Data a un componente de visualización (por ejemplo, un gráfico de barras) para mostrar la puntuación de similitud.

Componentes Relacionados

  • Embedding Generator – Crea los vectores de embedding que se usarán aquí.
  • Similarity Search – Busca documentos similares usando la métrica de similitud.
  • Data Visualizer – Muestra resultados numéricos en gráficos o tablas.

Consejos y Mejores Prácticas

  • Asegúrate de que ambos embeddings tengan la misma dimensión; de lo contrario, el componente devolverá un error.
  • Elige la métrica adecuada: Cosine Similarity es común para textos, mientras que Euclidean y Manhattan pueden ser útiles para datos numéricos.
  • Revisa la escala de los embeddings: Si los vectores están normalizados, los resultados de Cosine Similarity estarán entre -1 y 1.
  • Usa filtros: Si solo te interesan similitudes superiores a un umbral, combina este componente con un filtro de condición.

Consideraciones de Seguridad

  • Los embeddings pueden contener información sensible derivada de tus datos originales.
  • Mantén los datos de entrada y salida en canales seguros y evita exponerlos públicamente.
  • Si trabajas con datos regulados, verifica que el procesamiento de embeddings cumpla con las políticas de privacidad y protección de datos de tu organización.