Saltearse al contenido

Web Extract Agent (Legacy)

Este componente actúa como un asistente personal de investigación web. En lugar de que tú tengas que abrir sitios web manualmente, copiar texto y organizarlo en una hoja de cálculo, este agente lo hace por ti. Simplemente le indicas qué sitio web visitar y qué información necesitas (por ejemplo, “obtener los precios de los productos”), y el agente se encarga de buscar, extraer y organizar esos datos automáticamente.

Tiene el sufijo “Legacy” en su nombre, lo que significa que es una versión estable y probada, aunque existen versiones más recientes con funciones avanzadas. Es ideal si buscas un funcionamiento confiable para tareas de extracción de datos estándar.

¿Cómo funciona?

Imagina que este componente es un investigador automatizado. El proceso funciona en tres pasos simples:

  1. Planificación Inteligente: Tú le proporcionas una dirección web (URL) y le dices con tus propias palabras qué información quieres. Gracias a su inteligencia artificial, entiende tu instrucción y decide la mejor estrategia para encontrar esos datos.
  2. Navegación y Lectura: El agente visita la página web. Usa métodos estándar para leer el contenido, pero si la página es compleja y necesita ejecutar scripts (como las aplicaciones web modernas), utiliza un navegador simulado para cargar toda la información correctamente.
  3. Organización de Datos: Una vez que ha “leído” la web, el agente extrae la información relevante, la limpia y la organiza en una estructura clara (como una tabla o una lista). También se asegura de no repetir datos innecesarios.

Al final, te devuelve toda la información recopilada lista para ser utilizada en el resto de tu flujo de trabajo.

Conexión y Credenciales

Este componente no requiere configurar credenciales externas en este momento, ya que opera de forma autónoma utilizando las herramientas integradas del sistema.

Entradas

Para que el agente pueda trabajar, solo necesitas proporcionarle la información básica:

  • Target URL (URL de destino): Es la dirección web exacta donde quieres que el agente vaya a buscar la información (ej. https://ejemplo.com/productos).
  • Instruction (Instrucción): Aquí escribes en lenguaje natural lo que necesitas extraer. Puedes ser tan específico o general como quieras.
    • Ejemplo: “Extrae el nombre y el precio de todos los libros en esta página”.
    • Ejemplo: “Encuentra la fecha de la próxima reunión visible en el calendario”.

Salidas

El componente devuelve un objeto de datos estructurado. Esto significa que la información extraída no es solo texto suelto, sino que viene organizada (generalmente en formato de tabla o lista de registros) para que puedas usarla fácilmente en el siguiente paso de tu automatización.

Por ejemplo, si extraes productos, la salida contendrá datos organizados como “Nombre del Producto”, “Precio” y “Descripción” en filas separadas.

Ejemplo de Respuesta JSON

Así es como se vería la información estructurada que recibirías en el siguiente paso de tu flujo: json [ { “nombre”: “Zapatillas Deportivas”, “precio”: “49.99”, “disponible”: “Sí”, “url_imagen”: “https://ejemplo.com/img/zapatillas.jpg” }, { “nombre”: “Camiseta de Algodón”, “precio”: “15.50”, “disponible”: “Sí”, “url_imagen”: “https://ejemplo.com/img/camiseta.jpg” }, { “nombre”: “Gorra Elegante”, “precio”: “12.00”, “disponible”: “No”, “url_imagen”: “https://ejemplo.com/img/gorra.jpg” } ]

Conectividad

Este componente suele conectarse a etapas posteriores de un flujo de trabajo que requieren procesar datos crudos. Es común conectar la salida de “Web Extract Agent” a:

  • Base de Datos / SQLite: Para guardar la información recopilada de forma permanente.
  • Procesamiento de Datos (Excel/CSV): Para generar reportes o análisis adicionales.
  • Email/Slack Agent: Para enviar un resumen de los datos encontrados por correo o mensajería.

Ejemplo de Uso

Escenario: Quieres monitorear los precios de un producto específico en una tienda online semanalmente.

  1. Conectas el Web Extract Agent a la URL de la tienda donde está el producto.
  2. En la Instruction, escribes: “Obtén el nombre y el precio actual del producto destacado”.
  3. La salida se conecta a un nodo de Notificación por Email.
  4. Cuando ejecutas el flujo, el agente va a la web, encuentra el precio y te envía un correo con la actualización automáticamente.

Consejos y Mejores Prácticas

  • Sé claro en las instrucciones: Aunque el agente es inteligente, una instrucción específica (“Extrae el título y el autor”) funciona mejor que una muy vaga (“Dame información del libro”).
  • Prueba con una URL simple primero: Si es la primera vez que usas el componente, prueba con páginas web sencillas para entender cómo extrae los datos antes de usarlo en sitios muy complejos.
  • Ten paciencia con la extracción: Dado que el agente debe “pensar” y navegar, puede tardar unos segundos más que una simple descarga de archivo. No es instantáneo, pero es automatizado.

Consideraciones de Seguridad

  • Acceso a Internet Público: Este componente navega en la web pública. Asegúrate de no intentar extraer datos de sitios que requieran inicio de sesión complejo o que contengan información sensible si tu política de seguridad lo prohíbe, ya que los datos pasan por los servidores de automatización.
  • Estabilidad del Sitio Web: Si la página web de destino cambia su diseño o estructura, el agente podría dejar de encontrar los datos correctos hasta que la instrucción o la estructura se ajusten.