Saltearse al contenido

Chunking Component

Chunking Component

El Chunking Component (o Langgraph Chunking Agent) es una herramienta especializada en la fragmentación de textos extensos en unidades más pequeñas y manejables denominadas chunks. Su función es crítica en flujos de trabajo de IA, ya que permite que los modelos de lenguaje procesen información dentro de sus límites de ventana de contexto y mejora drásticamente la precisión en la recuperación de información (RAG).

A diferencia de los segmentadores de texto planos, este agente utiliza lógica avanzada para preservar la estructura semántica del documento, permitiendo una organización jerárquica y resúmenes automáticos que mantienen el valor informativo de cada fragmento.

Casos de Uso Principales

Utilice el Chunking Component para desarrollar soluciones que requieran:

  • Preparación de Datos para Vector DB: Segmentar documentos largos antes de su indexación para asegurar que cada vector represente un concepto claro.
  • Análisis de Documentos Estructurados: Mantener la jerarquía de títulos, párrafos y secciones al procesar contratos o manuales técnicos.
  • Optimización de Ventana de Contexto: Dividir textos que exceden la capacidad de entrada de un LLM sin perder la coherencia semántica.
  • Generación de Índices de Resumen: Crear breves descripciones de cada segmento para facilitar búsquedas rápidas en grandes volúmenes de texto.

Configuración Fundamental

Estos parámetros definen cómo se dividirá físicamente el texto de entrada.

ParámetroDescripción TécnicaPropósito en el Flujo
DataEl payload o documento de entrada que se desea fragmentar.Es el origen de la información que el agente procesará sistemáticamente.
Vector StoreConexión opcional a un almacén de vectores para indexación directa.Permite que los fragmentos generados se envíen automáticamente a una base de datos tras la división.
ModelEl LLM utilizado para tareas inteligentes como resúmenes o segmentación adaptativa.Actúa como el motor para funciones de “Smart Features” que requieren comprensión del texto.
Chunking StrategyMétodo de división (ej: Recursive, Character).Define la regla lógica para encontrar los puntos de corte en el texto.
Chunk SizeLongitud máxima (normalmente en caracteres o tokens) de cada fragmento.Controla el tamaño de la unidad de información resultante.
Chunk OverlapCantidad de texto que se repite entre un fragmento y el siguiente.Asegura que no se pierda contexto semántico en los puntos de corte.

Funcionalidades Avanzadas (Smart Features)

El componente incluye capacidades de inteligencia aplicadas para mejorar la calidad de los datos resultantes.

Smart & Adaptive Chunking

  • Use Hierarchical Document Structure: Analiza el documento para identificar niveles de encabezados y secciones, organizando los fragmentos en una estructura de “padres e hijos” que preserva la relación lógica del contenido original.
  • Enable Adaptive Chunking: Ajusta dinámicamente el tamaño de los fragmentos basándose en la densidad semántica del texto, evitando cortes en medio de ideas importantes aunque no se haya alcanzado el límite de caracteres.

Estructura y Resumen

  • Preserve Paragraphs: Garantiza que los cortes nunca ocurran en mitad de un párrafo, priorizando la integridad de los bloques de texto naturales sobre el límite estricto de Chunk Size.
  • Generate Chunk Summaries: Utiliza el modelo configurado para generar un breve resumen de cada fragmento. Esto es extremadamente útil para mejorar la relevancia en búsquedas vectoriales, ya que el modelo puede buscar en el resumen además de en el texto bruto.

Metadata & Customization

  • Custom Metadata: Permite añadir pares clave-valor personalizados a cada fragmento generado (ej: source: legal_dept, priority: high). Estos metadatos viajan con el fragmento y facilitan el filtrado posterior en bases de datos.
  • Component ID: Identificador único para trazabilidad dentro de grafos de ejecución complejos.

Salidas del Componente

  • Chunks: Una lista de fragmentos de texto procesados, cada uno con sus metadatos asociados y resúmenes opcionales, listos para ser consumidos por un LLM o almacenados.

Consejos y Mejores Prácticas

  • Equilibrio en el Overlap: Una superposición del 10-20% (ej: 200 para un tamaño de 1000) suele ser el estándar para mantener la continuidad sin duplicar excesivamente la información.
  • Resúmenes para RAG: Active Generate Chunk Summaries si su base de datos vectorial tiene dificultades para encontrar fragmentos muy técnicos; el lenguaje natural del resumen suele facilitar la coincidencia.
  • Segmentación Jerárquica: Utilice esta opción siempre que procese documentos con índices (TOC) claros para mejorar la navegación del agente posterior.

Puedes ver un video que muestra la potencia del Chunking Component aquí.