Saltearse al contenido

PDF Page Index

PDF Page Index

Este componente es una herramienta inteligente diseñada para ayudar a organizar documentos PDF complejos. Su función principal es analizar un archivo PDF y extraer automáticamente su tabla de contenidos, identificando las secciones y subsecciones principales.

Imagina que tienes un manual técnico muy largo o un informe extenso. En lugar de tener que buscar manualmente dónde empieza cada capítulo, este componente crea un “mapa” del documento, indicando qué página corresponde a cada título y cómo se relacionan entre sí. Esto es fundamental para construir asistentes de IA que puedan responder preguntas específicas buscando en el lugar correcto del documento, o para crear índices de navegación personalizados.

Nota de Desarrollo: Este componente se encuentra actualmente en fase de desarrollo experimental (is_development = True). Esto significa que su funcionalidad es potente pero puede estar sujeta a cambios o ajustes durante su implementación inicial.

¿Cómo funciona?

El componente utiliza algoritmos avanzados y inteligencia artificial para “leer” la estructura visual del PDF. A diferencia de los métodos tradicionales que solo buscan texto plano, este sistema analiza patrones como:

  • Tipografía: Distingue entre títulos en negrita y texto normal.
  • Sangrías: Identifica si un subtítulo está indentado (desplazado hacia la derecha) para entender la jerarquía (qué es una sección principal y qué es una subsección).
  • Numeración de páginas: Asocia cada título encontrado con el número de página donde aparece.

Una vez que el PDF es procesado, el componente genera una estructura de datos organizada (como un árbol), donde cada nodo representa un título y sus hijos representan los subtítulos, todo vinculado a sus respectivas páginas. Este resultado permite a otras partes del sistema navegar por el documento de manera eficiente.

Conexión y Credenciales

Este componente no requiere la configuración de credenciales externas (como claves de API de terceros), ya que realiza el procesamiento de datos directamente dentro del sistema Nappai.

Entradas

Campos de Entrada

Para utilizar este componente, necesitas proporcionar el archivo PDF que deseas analizar.

  • PDF File: Este es el archivo de entrada principal. Debes subir o seleccionar el documento PDF del cual deseas extraer la tabla de contenidos y la estructura jerárquica.
    • Nota: Aunque los metadatos técnicos no explicitan parámetros adicionales en la vista actual, el componente depende de la entrada del archivo PDF para realizar su análisis.

Salidas

El componente devuelve una estructura de datos organizada que representa el índice del documento. Esta salida no es un simple texto, sino una lista estructurada (usualmente una lista de objetos o diccionarios) que contiene información sobre cada sección encontrada.

Esta salida es ideal para ser conectada a otros componentes que necesiten navegar el PDF, como un buscador de texto o un asistente de IA que responda preguntas basándose en secciones específicas.

Ejemplo de Respuesta JSON

A continuación, se muestra un ejemplo de cómo se ve la estructura de datos devuelta por el componente. Este formato representa una sección principal (“Capítulo 1”) y una subsección dentro de ella. json [ { “title”: “Introducción al Sistema”, “level”: 1, “page_number”: 3, “children”: [] }, { “title”: “Capítulo 1: Configuración Inicial”, “level”: 1, “page_number”: 5, “children”: [ { “title”: “1.1 Requisitos del Sistema”, “level”: 2, “page_number”: 6, “children”: [] }, { “title”: “1.2 Instalación”, “level”: 2, “page_number”: 7, “children”: [ { “title”: “1.2.1 Pasos de Instalación”, “level”: 3, “page_number”: 8, “children”: [] } ] } ] } ]

  • title: El texto del título encontrado.
  • level: El nivel de jerarquía (1 para secciones principales, 2 para subsecciones, etc.).
  • page_number: El número de página donde comienza esa sección.
  • children: Una lista de las subsecciones contenidas dentro de esta sección.

Conectividad

Este componente es esencialmente un “catalizador” de estructura. Por lo general, su salida (el índice extraído) se conecta a:

  1. Componentes de Extracción de Texto: Para saber qué texto extraer de una página específica, primero necesitas saber qué página corresponde a qué sección.
  2. Asistentes de IA (Chatbots): Para configurar bases de conocimiento estructuradas, permitiendo que la IA responda preguntas como “¿Qué dice la sección 1.2?”.
  3. Generadores de Índices Visuales: Para crear tablas de contenidos navegables en aplicaciones web o aplicaciones móviles.

Ejemplo de Uso

Escenario: Tienes un manual de usuario de 100 páginas y quieres crear un bot de soporte técnico que pueda responder preguntas específicas sobre la instalación.

  1. Paso 1: Conecta el componente PDF Page Index a tu archivo “Manual_Usuario.pdf”.
  2. Paso 2: Ejecuta el flujo. El componente devolverá la estructura jerárquica (ej. “Capítulo 1: Instalación” en la página 10).
  3. Paso 3: Conecta la salida de este componente a un componente de Extracción de Texto o a un Vector Store de IA.
  4. Resultado: Ahora tu sistema sabe exactamente en qué página buscar la información de instalación, lo que hace que las respuestas de tu asistente sean más precisas y rápidas.

Consejos y Mejores Prácticas

  • PDFs Escaneos: Si tu PDF es una imagen escaneada (no selectable text), el componente depende de la capacidad de IA para interpretar los caracteres visuales. Asegúrate de que la calidad de la imagen sea buena para mejores resultados.
  • Estructuras Complejas: Este componente es especialmente útil para documentos con múltiples niveles de jerarquía (Títulos -> Subtítulos -> Párrafos). Para documentos muy simples, la salida puede ser básica.
  • Fase Experimental: Ten en cuenta que al estar en fase de desarrollo, los resultados pueden variar ligeramente con actualizaciones futuras. Es recomendable probar con varios PDFs antes de usarlo en procesos críticos de producción.

Consideraciones de Seguridad

  • Procesamiento de Datos: El documento PDF se procesa dentro del entorno de Nappai. Asegúrate de cumplir con las políticas de privacidad de tu organización si el documento contiene información sensible, ya que los datos serán analizados por el motor de IA.