Saltearse al contenido

URL Advanced

El componente URL Advanced permite a los usuarios extraer información útil de páginas web directamente desde el dashboard de Nappai. Con él puedes obtener el título de la página, el texto principal, los enlaces y las imágenes que aparecen en cada URL que proporciones, y usar esos datos en flujos de automatización posteriores.

¿Cómo funciona?

El componente recibe una lista de URLs (o un conjunto de datos que contenga URLs) y opcionalmente una base URL y selectores CSS para afinar la extracción. Internamente:

  1. Validación de URLs – Se asegura de que cada cadena sea una URL válida, añadiendo http:// si falta el protocolo.
  2. Scraping – Utiliza la clase UrlWebScrapper para conectarse a cada página y extraer:
    • Título (title)
    • Texto principal (text)
    • Enlaces (links)
    • Imágenes (images)
  3. Construcción del resultado – Cada URL produce un objeto Data con los campos anteriores y la URL de origen (source). Los resultados se devuelven como una lista, manteniendo el orden original.

No se llama a ninguna API externa de terceros; todo el procesamiento se hace localmente dentro del entorno de Nappai.

Entradas

  • Data
    Contiene objetos que incluyen una URL a extraer. Se usa cuando los datos provienen de otro componente.

  • Base URL
    Si las URLs en Data son relativas, esta base se concatena para formar la URL completa.

  • image selectors
    Selectores CSS que indican qué elementos de la página se consideran imágenes. Si se dejan vacíos, se extraen todas las imágenes por defecto.

  • link selectors
    Selectores CSS para identificar los enlaces que se desean capturar. Si se omiten, se obtienen todos los enlaces.

  • text selectors
    Selectores CSS que definen el bloque de texto principal a extraer. Si no se especifican, se intenta capturar el texto más relevante de la página.

  • URL Data Key
    La clave dentro de cada objeto Data que contiene la URL a procesar. El valor por defecto es url.

  • URLs
    Una lista de URLs separadas por comas o ingresadas una por una con el botón “+”. Se usan cuando no se dispone de datos estructurados.

Salidas

  • Data
    Devuelve una lista de objetos Data. Cada objeto incluye:
    • title: título de la página
    • text: texto extraído
    • links: lista de enlaces encontrados
    • images: lista de URLs de imágenes
    • source: URL original (o con base si se aplicó)

Esta salida puede conectarse a otros componentes, como filtros, transformaciones de texto o almacenamiento en bases de datos.

Ejemplo de Uso

  1. Añade el componente “URL Advanced” al flujo de trabajo.
  2. En el campo URLs, escribe:
    https://www.nappai.com, https://www.example.com
  3. (Opcional) En text selectors escribe .article-body para extraer solo el contenido de artículos.
  4. Haz clic en Run.
    El componente devolverá una lista de datos con el título, texto, enlaces e imágenes de cada página.

Puedes usar la salida en un componente “Data Output” para guardarla en un archivo CSV o pasarla a un modelo de IA para análisis de sentimiento.

Componentes Relacionados

  • DataInput – Permite pasar datos estructurados que contengan URLs.
  • UrlWebScrapper – Motor de scraping subyacente (no se muestra en el dashboard, pero es la base del componente).
  • TextProcessor – Para limpiar o analizar el texto extraído.

Consejos y Mejores Prácticas

  • Limita la cantidad de URLs: El scraping simultáneo puede consumir recursos; prueba con 5–10 URLs a la vez.
  • Usa selectores específicos: Reducen la cantidad de datos extraídos y mejoran la precisión.
  • Revisa la política de robots.txt de los sitios antes de scrapear, para respetar sus reglas de acceso.
  • Maneja errores: Si una URL falla, el componente devuelve un objeto vacío; puedes filtrar estos casos con un componente “Filter”.

Consideraciones de Seguridad

  • Evita URLs maliciosas: No ingreses enlaces de fuentes desconocidas, ya que el scraper puede ejecutar scripts que comprometan la seguridad del entorno.
  • Control de acceso: Si el componente se ejecuta en un entorno compartido, asegúrate de que solo usuarios autorizados puedan activar el scraping.
  • Privacidad: No extraigas datos sensibles sin el consentimiento adecuado; respeta la normativa de protección de datos (GDPR, CCPA, etc.).