Web Scraper
El Web Scraper es un componente sencillo que permite extraer el contenido de páginas web y convertirlo en texto plano con formato Markdown. Es ideal para incorporar información externa directamente en tus flujos de trabajo de Nappai sin necesidad de escribir código de scraping.
¿Cómo funciona?
Cuando activas el componente, Nappai envía una solicitud HTTP a la URL que indiques. El componente espera la respuesta, extrae el contenido HTML y lo transforma en Markdown usando la librería LangChain. El resultado se devuelve en dos salidas:
- Data: el texto en Markdown listo para usar.
- Tool: una herramienta que puede ser pasada a un modelo de IA para que la utilice en sus respuestas.
El proceso es local y no requiere credenciales externas; simplemente necesitas una conexión a Internet para acceder a la página web.
Entradas
Modo de Mapeo (Mapping Mode)
Este componente cuenta con un modo especial llamado “Mapping Mode” (Modo de Mapeo). Cuando activas este modo mediante el interruptor, se habilita una entrada adicional llamada “Mapping Data” y cada campo de entrada te ofrece tres formas diferentes de proporcionar datos:
- Fixed (Fijo): Escribes el valor directamente en el campo.
- Mapped (Mapeado): Conectas la salida de otro componente para usar su resultado como valor.
- Javascript: Escribes código Javascript para calcular el valor dinámicamente.
Esta flexibilidad te permite crear flujos de trabajo más dinámicos y conectados.
Campos de Entrada
- Mapping Mode: Habilita el modo de mapeo para procesar múltiples registros en lote.
- Timeout: Tiempo máximo en milisegundos que el componente esperará antes de cancelar la solicitud.
- Tool Description: Descripción breve de la herramienta que se generará a partir del contenido extraído.
- Tool Name: Nombre que se asignará a la herramienta creada.
- URL: La dirección web que quieres extraer. Puedes separar varias URLs con comas para procesarlas en una sola ejecución.
Salidas
- Data: El contenido de la página web convertido a Markdown. Puedes usarlo directamente en tu flujo de trabajo o mostrarlo en un panel.
- Tool: Una herramienta que encapsula el contenido extraído y puede ser pasada a un modelo de IA para que la utilice en sus respuestas.
Ejemplo de Uso
- Añade el componente “Web Scraper” a tu flujo de trabajo.
- Desactiva el modo de mapeo si solo quieres procesar una URL.
- En el campo URL escribe:
https://www.nappai.com/automation-guide
- Opcionalmente, completa Tool Name y Tool Description para que la herramienta sea más descriptiva.
- Conecta la salida Data a un nodo de “Display Text” para ver el Markdown, o la salida Tool a un nodo de “LLM” para que el modelo la utilice en sus respuestas.
Componentes Relacionados
- WebScrapeBase – Base que gestiona la lógica de scraping y la conversión a Markdown.
- LangChain Utilities – Conjunto de utilidades que facilita la integración con modelos de IA.
Consejos y Mejores Prácticas
- Usa URLs confiables: Evita sitios que bloqueen bots o requieran autenticación.
- Controla el Timeout: Si la página tarda mucho, ajusta el tiempo de espera para evitar bloqueos.
- Limita el número de URLs: Cuando uses varias URLs separadas por comas, recuerda que cada una consume recursos; prueba con pocas primero.
- Revisa el contenido: El Markdown generado puede contener enlaces rotos o imágenes externas; verifica antes de usarlo en producción.
Consideraciones de Seguridad
- Respeto a los Términos de Servicio: Asegúrate de que el sitio web permita el scraping.
- Evita datos sensibles: No extraigas información que pueda violar la privacidad o la propiedad intelectual.
- Control de errores: Configura un manejo de errores adecuado para URLs no válidas o páginas que no se cargan.