URL

El componente URL permite a los usuarios de Nappai obtener el contenido de páginas web directamente desde el dashboard. Puedes introducir una o varias direcciones web y, opcionalmente, indicar qué partes del HTML quieres extraer (por ejemplo, solo los párrafos o los encabezados). El resultado es una lista de objetos Data que contienen el texto extraído y metadatos como la URL original y la fecha de carga.

¿Cómo funciona?

Validación de la URL
Cada entrada se revisa para asegurarse de que comience con http:// o https://. Si falta el protocolo, se añade automáticamente. Luego se comprueba que la cadena cumpla con una expresión regular básica que valida dominios, puertos y rutas.
Descarga del contenido
Se utiliza WebBaseLoader de LangChain para solicitar las páginas web. El loader admite varios URLs a la vez y devuelve un documento por cada página.
Extracción opcional de tags
Si el usuario ha especificado Selectors to extract, se aplica BeautifulSoupTransformer. Este paso filtra el HTML y devuelve solo los elementos que coinciden con los selectores CSS o XPath proporcionados.
Formateo de la salida
Cada documento se convierte en un objeto Data con dos campos principales:
- text: el contenido (texto completo o los tags extraídos).
- metadata: información adicional como la URL, el título de la página y la fecha de carga.

El componente no llama a APIs externas de terceros; todo el procesamiento se realiza localmente dentro del entorno de Nappai.

Entradas

URLs

Enter one or more URLs, by clicking the ’+’ button.
Explicación:

Puedes añadir varias direcciones web, separándolas con comas o usando el botón “+” para crear nuevas líneas.
El componente aceptará tanto URLs completas (https://ejemplo.com) como direcciones sin protocolo (ejemplo.com), añadiendo automáticamente http:// cuando sea necesario.
Si introduces una cadena que no sea una URL válida, el componente mostrará un error y no continuará la ejecución.

Selectors to extract

Selectors to extract
Explicación:

Este campo es opcional.
Si lo rellenas, el componente extraerá únicamente los elementos que coincidan con los selectores CSS o XPath que indiques (por ejemplo, p, .article, div#content).
Si lo dejas vacío, se devolverá todo el contenido de la página.

Salidas

Data (método: fetch_content)

Tipo: list[Data]
Cada elemento contiene:
- text: el contenido extraído (texto plano o HTML de los tags seleccionados).
- metadata: incluye la URL original, el título de la página, la fecha de carga y cualquier otro dato que el loader haya podido capturar.
Puedes usar esta salida como entrada para otros componentes, como un modelo de IA, un analizador de texto o un visualizador de datos.

Ejemplo de Uso

Objetivo: Obtener el texto de los párrafos de la página de inicio de Wikipedia y usarlo en un modelo de resumen.
Configuración
- URLs: https://es.wikipedia.org/wiki/Inteligencia_artificial
- Selectors to extract: p
Resultado
- El componente devuelve una lista con un solo objeto Data.
- text contiene el texto de todos los párrafos de la página.
- metadata incluye la URL y la fecha de carga.
Próximo paso
- Conecta la salida Data a un componente de “LLM Chain” para generar un resumen breve.

Componentes Relacionados

TextSplitter – Divide el texto extraído en fragmentos más pequeños para procesar con modelos de IA.
PromptTemplate – Permite crear plantillas de preguntas que se alimentan con el contenido de la URL.
LLMChain – Ejecuta un modelo de lenguaje sobre el texto obtenido.
DataFilter – Filtra la salida Data según criterios de metadatos (por ejemplo, solo URLs que contengan “blog”).

Consejos y Mejores Prácticas

Usa URLs completas: aunque el componente añade http:// automáticamente, es más seguro y rápido usar https://.
Limita la extracción: especifica selectores para reducir la cantidad de datos y acelerar la carga.
Controla los tiempos de espera: si trabajas con sitios lentos, considera dividir la lista de URLs y procesarlas en lotes.
Revisa los metadatos: la información de la URL y la fecha de carga te ayuda a rastrear la procedencia de los datos.
Evita URLs duplicadas: el componente no elimina duplicados, por lo que podrías obtener resultados repetidos si introduces la misma URL varias veces.

Consideraciones de Seguridad

Validación de URLs: el componente ya valida la sintaxis, pero siempre verifica que las direcciones provengan de fuentes confiables.
HTTPS: prefiera URLs con https:// para garantizar la confidencialidad de la conexión.
Contenido malicioso: aunque el componente descarga el HTML, no ejecuta scripts. No obstante, evita procesar páginas que puedan contener malware o phishing.
Política de uso: respeta los términos de servicio de los sitios web y evita sobrecargar servidores con peticiones repetitivas.

Con esta guía, los usuarios no técnicos pueden integrar fácilmente la obtención de contenido web en sus flujos de trabajo de Nappai, extrayendo solo la información que necesiten y alimentando otros componentes de automatización.