Saltearse al contenido

Pimberly Document Loader

El Pimberly Document Loader es un componente de Nappai que permite traer información actualizada desde la plataforma Pimberly directamente a tu flujo de trabajo. Con él puedes filtrar los registros por fecha, limitar la cantidad de resultados y decidir qué campos de los documentos y metadatos quieres incluir o excluir. El resultado es una lista de objetos Data que puedes usar en cualquier otro componente de tu dashboard.

¿Cómo funciona?

Cuando lo añades a tu flujo, el componente crea una instancia de PimberlyDataLoader con los parámetros que hayas configurado. Este loader hace una llamada a la API de Pimberly usando la clave API que has guardado en la credencial Pimberly API. La API devuelve los productos actualizados desde la fecha indicada (si la has especificado). El loader procesa cada registro, separa el contenido en páginas si lo has solicitado y construye un objeto Document con el texto y los metadatos seleccionados. Finalmente, el componente devuelve una lista de objetos Data que contienen el texto y los metadatos de cada documento.

Entradas

Nota: Este componente necesita una credencial de tipo Pimberly API.

  1. Configura la credencial en la sección Credenciales de Nappai.
  2. Selecciona esa credencial en el campo Credential del componente.

Campos de Entrada

  • Since Date: La fecha a partir de la cual se filtrarán los productos actualizados (por ejemplo, 2023-01-01). Si lo dejas vacío, se obtendrán todos los productos disponibles.
  • Max Results: El número máximo de resultados que quieres recibir. El valor por defecto es 10, pero puedes aumentarlo si necesitas más datos.
  • Text fields separated by comma: Lista separada por comas de los campos de metadatos que quieres incluir en el texto del documento. Si lo dejas vacío, se incluirán todos los campos.
  • Metadata Fields to include: Lista separada por comas de los campos de metadatos que quieres que aparezcan en la salida. Si lo dejas vacío, se incluirán todos los campos.
  • Metadata Fields to exclude: Lista separada por comas de los campos de metadatos que quieres excluir de la salida. Si lo dejas vacío, no se excluirá nada.
  • Document Fields to include: Lista separada por comas de los campos de documento que quieres incluir en la salida. Si lo dejas vacío, se incluirán todos los campos.
  • Source Field Template: Plantilla de atributo que se usará como fuente del documento. Puedes dejarla vacía si no necesitas un valor específico.
  • Split by page: Si lo activas, el contenido del documento se dividirá en páginas, lo que puede ser útil para análisis de texto más granular.

Salidas

  • Data: Una lista de objetos Data. Cada objeto contiene:
    • text: El contenido del documento (o de cada página si se activó la división por página).
    • metadata: Un diccionario con los metadatos seleccionados, que puede incluir cualquier campo que hayas incluido o excluido según la configuración.

Esta salida puede conectarse a cualquier otro componente que acepte datos de tipo Data, como un cargador de vector, un generador de resúmenes o un analizador de sentimientos.

Ejemplo de Uso

Supongamos que quieres obtener los 20 productos más recientes de Pimberly, incluir solo los campos price y category en los metadatos, y dividir el contenido en páginas. En tu flujo:

  1. Añade el Pimberly Document Loader.
  2. Configura:
    • Since Date: 2024-01-01
    • Max Results: 20
    • Metadata Fields to include: price,category
    • Split by page: True
  3. Conecta la salida Data a un componente de Vector Store para indexar los productos.
  4. Usa el vector store en un componente de búsqueda para que los usuarios puedan encontrar productos por descripción o categoría.

Componentes Relacionados

  • Vector Store – Indexa los datos para búsquedas rápidas.
  • Text Splitter – Si necesitas un control más fino sobre la división de páginas.
  • Data Filter – Filtra la salida de Data antes de enviarla a otro proceso.

Consejos y Mejores Prácticas

  • Limita la cantidad de resultados: Si solo necesitas un subconjunto de datos, ajusta Max Results para reducir la carga en la API y acelerar el flujo.
  • Usa filtros de fecha: Establecer Since Date evita descargar datos antiguos que ya no cambian.
  • Evita incluir campos innecesarios: Cuanto menos metadatos incluyas, más rápido será el procesamiento y menor será el consumo de ancho de banda.
  • Activa la división por página solo cuando sea necesario: Si el contenido es muy largo, dividirlo en páginas facilita el análisis, pero aumenta el número de objetos que se generan.
  • Revisa la credencial: Asegúrate de que la clave API esté actualizada y tenga los permisos necesarios para acceder a los datos que necesitas.

Consideraciones de Seguridad

  • La clave API de Pimberly se almacena de forma segura en la credencial Pimberly API; no aparece en la lista de entradas para evitar exponerla accidentalmente.
  • No compartas la credencial ni la clave API en el código fuente ni en archivos de configuración públicos.
  • Si sospechas que la clave ha sido comprometida, revísala y genera una nueva desde la consola de Pimberly y actualízala en Nappai.