URL Advanced

El componente URL Advanced permite a los usuarios extraer información útil de páginas web directamente desde el dashboard de Nappai. Con él puedes obtener el título de la página, el texto principal, los enlaces y las imágenes que aparecen en cada URL que proporciones, y usar esos datos en flujos de automatización posteriores.

¿Cómo funciona?

El componente recibe una lista de URLs (o un conjunto de datos que contenga URLs) y opcionalmente una base URL y selectores CSS para afinar la extracción. Internamente:

Validación de URLs – Se asegura de que cada cadena sea una URL válida, añadiendo http:// si falta el protocolo.
Scraping – Utiliza la clase UrlWebScrapper para conectarse a cada página y extraer:
- Título (title)
- Texto principal (text)
- Enlaces (links)
- Imágenes (images)
Construcción del resultado – Cada URL produce un objeto Data con los campos anteriores y la URL de origen (source). Los resultados se devuelven como una lista, manteniendo el orden original.

No se llama a ninguna API externa de terceros; todo el procesamiento se hace localmente dentro del entorno de Nappai.

Entradas

Data
Contiene objetos que incluyen una URL a extraer. Se usa cuando los datos provienen de otro componente.
Base URL
Si las URLs en Data son relativas, esta base se concatena para formar la URL completa.
image selectors
Selectores CSS que indican qué elementos de la página se consideran imágenes. Si se dejan vacíos, se extraen todas las imágenes por defecto.
link selectors
Selectores CSS para identificar los enlaces que se desean capturar. Si se omiten, se obtienen todos los enlaces.
text selectors
Selectores CSS que definen el bloque de texto principal a extraer. Si no se especifican, se intenta capturar el texto más relevante de la página.
URL Data Key
La clave dentro de cada objeto Data que contiene la URL a procesar. El valor por defecto es url.
URLs
Una lista de URLs separadas por comas o ingresadas una por una con el botón “+”. Se usan cuando no se dispone de datos estructurados.

Salidas

Data
Devuelve una lista de objetos Data. Cada objeto incluye:
- title: título de la página
- text: texto extraído
- links: lista de enlaces encontrados
- images: lista de URLs de imágenes
- source: URL original (o con base si se aplicó)

Esta salida puede conectarse a otros componentes, como filtros, transformaciones de texto o almacenamiento en bases de datos.

Ejemplo de Uso

Añade el componente “URL Advanced” al flujo de trabajo.

En el campo URLs, escribe:

https://www.nappai.com, https://www.example.com

(Opcional) En text selectors escribe .article-body para extraer solo el contenido de artículos.
Haz clic en Run.
El componente devolverá una lista de datos con el título, texto, enlaces e imágenes de cada página.

Puedes usar la salida en un componente “Data Output” para guardarla en un archivo CSV o pasarla a un modelo de IA para análisis de sentimiento.

Componentes Relacionados

DataInput – Permite pasar datos estructurados que contengan URLs.
UrlWebScrapper – Motor de scraping subyacente (no se muestra en el dashboard, pero es la base del componente).
TextProcessor – Para limpiar o analizar el texto extraído.

Consejos y Mejores Prácticas

Limita la cantidad de URLs: El scraping simultáneo puede consumir recursos; prueba con 5–10 URLs a la vez.
Usa selectores específicos: Reducen la cantidad de datos extraídos y mejoran la precisión.
Revisa la política de robots.txt de los sitios antes de scrapear, para respetar sus reglas de acceso.
Maneja errores: Si una URL falla, el componente devuelve un objeto vacío; puedes filtrar estos casos con un componente “Filter”.

Consideraciones de Seguridad

Evita URLs maliciosas: No ingreses enlaces de fuentes desconocidas, ya que el scraper puede ejecutar scripts que comprometan la seguridad del entorno.
Control de acceso: Si el componente se ejecuta en un entorno compartido, asegúrate de que solo usuarios autorizados puedan activar el scraping.
Privacidad: No extraigas datos sensibles sin el consentimiento adecuado; respeta la normativa de protección de datos (GDPR, CCPA, etc.).