URL Advanced
El componente URL Advanced permite a los usuarios extraer información útil de páginas web directamente desde el dashboard de Nappai. Con él puedes obtener el título de la página, el texto principal, los enlaces y las imágenes que aparecen en cada URL que proporciones, y usar esos datos en flujos de automatización posteriores.
¿Cómo funciona?
El componente recibe una lista de URLs (o un conjunto de datos que contenga URLs) y opcionalmente una base URL y selectores CSS para afinar la extracción. Internamente:
- Validación de URLs – Se asegura de que cada cadena sea una URL válida, añadiendo
http://
si falta el protocolo. - Scraping – Utiliza la clase
UrlWebScrapper
para conectarse a cada página y extraer:- Título (
title
) - Texto principal (
text
) - Enlaces (
links
) - Imágenes (
images
)
- Título (
- Construcción del resultado – Cada URL produce un objeto
Data
con los campos anteriores y la URL de origen (source
). Los resultados se devuelven como una lista, manteniendo el orden original.
No se llama a ninguna API externa de terceros; todo el procesamiento se hace localmente dentro del entorno de Nappai.
Entradas
-
Data
Contiene objetos que incluyen una URL a extraer. Se usa cuando los datos provienen de otro componente. -
Base URL
Si las URLs enData
son relativas, esta base se concatena para formar la URL completa. -
image selectors
Selectores CSS que indican qué elementos de la página se consideran imágenes. Si se dejan vacíos, se extraen todas las imágenes por defecto. -
link selectors
Selectores CSS para identificar los enlaces que se desean capturar. Si se omiten, se obtienen todos los enlaces. -
text selectors
Selectores CSS que definen el bloque de texto principal a extraer. Si no se especifican, se intenta capturar el texto más relevante de la página. -
URL Data Key
La clave dentro de cada objetoData
que contiene la URL a procesar. El valor por defecto esurl
. -
URLs
Una lista de URLs separadas por comas o ingresadas una por una con el botón “+”. Se usan cuando no se dispone de datos estructurados.
Salidas
- Data
Devuelve una lista de objetosData
. Cada objeto incluye:title
: título de la páginatext
: texto extraídolinks
: lista de enlaces encontradosimages
: lista de URLs de imágenessource
: URL original (o con base si se aplicó)
Esta salida puede conectarse a otros componentes, como filtros, transformaciones de texto o almacenamiento en bases de datos.
Ejemplo de Uso
- Añade el componente “URL Advanced” al flujo de trabajo.
- En el campo URLs, escribe:
https://www.nappai.com, https://www.example.com
- (Opcional) En text selectors escribe
.article-body
para extraer solo el contenido de artículos. - Haz clic en Run.
El componente devolverá una lista de datos con el título, texto, enlaces e imágenes de cada página.
Puedes usar la salida en un componente “Data Output” para guardarla en un archivo CSV o pasarla a un modelo de IA para análisis de sentimiento.
Componentes Relacionados
- DataInput – Permite pasar datos estructurados que contengan URLs.
- UrlWebScrapper – Motor de scraping subyacente (no se muestra en el dashboard, pero es la base del componente).
- TextProcessor – Para limpiar o analizar el texto extraído.
Consejos y Mejores Prácticas
- Limita la cantidad de URLs: El scraping simultáneo puede consumir recursos; prueba con 5–10 URLs a la vez.
- Usa selectores específicos: Reducen la cantidad de datos extraídos y mejoran la precisión.
- Revisa la política de robots.txt de los sitios antes de scrapear, para respetar sus reglas de acceso.
- Maneja errores: Si una URL falla, el componente devuelve un objeto vacío; puedes filtrar estos casos con un componente “Filter”.
Consideraciones de Seguridad
- Evita URLs maliciosas: No ingreses enlaces de fuentes desconocidas, ya que el scraper puede ejecutar scripts que comprometan la seguridad del entorno.
- Control de acceso: Si el componente se ejecuta en un entorno compartido, asegúrate de que solo usuarios autorizados puedan activar el scraping.
- Privacidad: No extraigas datos sensibles sin el consentimiento adecuado; respeta la normativa de protección de datos (GDPR, CCPA, etc.).