Web Scraper Agent

El Web Scraper Agent (Agente de Scraping Web) es una herramienta inteligente dentro de Nappai diseñada para ayudarte a obtener datos de sitios web de forma sencilla. En lugar de tener que configurar selectores complejos o código técnico, este agente utiliza inteligencia artificial para entender qué información necesitas en palabras normales y buscarla automáticamente en internet.

Piensa en este componente como un asistente personal que navega por internet por ti. Tú le dices qué datos buscas (por ejemplo, “los precios de los productos de esta tienda”), y él visita la página, lee la información, la organiza y te la entrega lista para usar.

¿Cómo funciona?

Este componente funciona de manera muy similar a como lo haría un humano, pero a gran velocidad y sin cansarse:

Entiende tu solicitud: Tú escribes lo que necesitas en un lenguaje natural (español, inglés, etc.). La inteligencia artificial del agente lee tu petición y entiende exactamente qué datos le interesan.
Visita la página web: El agente va a la dirección web que le indicaste.
Navega y Lee: A diferencia de los robots tradicionales que a veces fallan con sitios web modernos, este agente puede manejar páginas que se actualizan dinámicamente (como las que usan JavaScript) o que tienen varias páginas (paginación). Es como si hicieras clic en “Siguiente página” manualmente, pero hecho en milisegundos.
Organiza los datos: Una vez que encuentra la información, el agente la estructura en un formato ordenado (como una lista o una tabla) para que puedas usarla fácilmente en el resto de tu automatización.

Conexión y Credenciales

Este componente está diseñado para ser flexible y trabajar con los modelos de inteligencia artificial que ya tengas configurados en tu sistema. No requiere que ingreses credenciales complejas directamente en el componente, pero sí depende de que tengas un Modelo de Lenguaje (LLM) conectado y funcional en tu entorno Nappai (como OpenAI o modelos locales) para que el “cerebro” del agente pueda tomar decisiones.

Entradas

Los siguientes campos están disponibles para configurar este componente.

Natural Language Query: [La descripción detallada en texto de qué datos necesitas extraer. Ejemplo: “Extrae los nombres de los empleados y sus correos electrónicos de la tabla de contacto”].
Target URL: [La dirección web exacta donde quieres que el agente busque la información].
Language Model: [El modelo de inteligencia artificial que se utilizará para entender la solicitud y extraer los datos. Debes seleccionar uno de los modelos que tengas configurados].

Salidas

Este componente devuelve la información encontrada en un formato estructurado y fácil de leer.

Ejemplo de Respuesta JSON

Cuando el agente termina su trabajo, te entrega un resultado similar a este ejemplo, donde los datos están organizados clave por clave: json [ { “product_name”: “Camiseta Azul”, “price”: “$25.00”, “availability”: “En stock” }, { “product_name”: “Pantalón Negro”, “price”: “$40.00”, “availability”: “Agotado” } ]

Conectividad

Este componente suele conectarse a base de datos, hojas de cálculo (como Google Sheets o Excel) o a componentes de envío de correos.

¿Por qué? Porque el objetivo principal del Web Scraper Agent es recopilar datos crudos. Una vez que los tienes (como una lista de precios o contactos), es muy común enviarlos automáticamente a un archivo para guardarlos, a una base de datos para procesarlos o a un correo para notificarlos.

Ejemplo de Uso

Imagina que necesitas actualizar los precios de los productos de tu tienda en una hoja de cálculo todos los lunes por la mañana.

Conecta el Web Scraper Agent a una URL de un competidor o proveedor.
En el campo Natural Language Query, escribes: “Obtén el nombre del producto y el precio actual de cada elemento en la lista”.
Conecta la salida del agente a un componente de Google Sheets.
Automáticamente, cada lunes, el agente visitará la web, leerá los nuevos precios y los actualizará en tu hoja de cálculo sin que tengas que hacer clic en nada.

Consejos y Mejores Prácticas

Sé específico con el lenguaje: En lugar de decir “busca datos”, di “busca el nombre del autor y la fecha de publicación”. Cuanto más específica sea tu instrucción, más exactos serán los resultados.
Prueba con una sola página: Si la web tiene muchas páginas, el agente puede tardar un poco más. Es bueno empezar probando con una URL simple para asegurar que entiende bien qué datos necesitas.
Usa URL finales: Asegúrate de que la URL que proporcionas sea la página final donde están los datos (no una página de inicio sin contenido), ya que el agente trabajará más eficientemente si va directo a la fuente.

Consideraciones de Seguridad

Asegúrate de solo usar este componente con sitios web de confianza y a los que tengas permiso para acceder. Recuerda que el agente está “viendo” y leyendo el contenido público de la web, por lo que no debes usarlo para intentar acceder a información privada o protegida con contraseña.