Split Text
El componente Split Text permite dividir cualquier bloque de texto en partes más pequeñas, llamadas chunks.
Esto es útil cuando necesitas procesar grandes volúmenes de información de forma más manejable, por ejemplo, antes de enviarlos a un modelo de IA o guardarlos en una base de datos.
¿Cómo funciona?
El componente recibe una lista de datos de tipo Data (cada uno contiene un texto y metadatos).
- Separador: Se determina el carácter o cadena que se usará para dividir el texto. Por defecto es un salto de línea (
\n
). - Tamaño del chunk: Si se especifica un número mayor que cero, el texto se corta en bloques de ese tamaño máximo, con un solapamiento opcional de caracteres (
chunk_overlap
). - Sin tamaño definido: Si
chunk_size
es 0, el texto se divide simplemente en cada ocurrencia del separador. - El resultado es una lista de objetos Data, cada uno con un fragmento de texto y los metadatos originales.
Todo el procesamiento se realiza localmente dentro del dashboard, sin llamadas a servicios externos.
Entradas
- Data Inputs: El conjunto de datos que quieres dividir.
- Chunk Overlap: Número de caracteres que se repetirán entre dos bloques consecutivos.
- Chunk Size: Máximo de caracteres que puede contener cada bloque.
- Separator: Carácter o cadena que indica dónde cortar el texto. Si no se cambia, se usa un salto de línea.
Salidas
- Chunks: Lista de objetos Data. Cada objeto contiene un fragmento de texto y los metadatos originales. Esta salida puede conectarse a otros componentes que requieran datos fragmentados, como un modelo de lenguaje o un motor de búsqueda.
Ejemplo de Uso
- Entrada: Un documento de 5 000 caracteres sobre un proceso de negocio.
- Configuración:
Chunk Size
: 1 000Chunk Overlap
: 200Separator
:\n
(por defecto)
- Resultado: 6 bloques de texto, cada uno con 1 000 caracteres (excepto el último) y 200 caracteres de solapamiento con el bloque anterior.
- Próximo paso: Conectar la salida Chunks a un componente de “Text to Embedding” para generar vectores que luego se pueden almacenar en un vector store.
Componentes Relacionados
- Text to Data – Convierte texto plano en objetos Data que pueden ser procesados por Split Text.
- Data to Text – Reúne varios objetos Data en un solo bloque de texto, útil después de procesar los chunks.
- Text to Embedding – Genera representaciones vectoriales de cada chunk para búsquedas semánticas.
Consejos y Mejores Prácticas
- Ajusta el solapamiento: Un solapamiento de 200 caracteres suele ser suficiente para mantener contexto entre bloques sin duplicar demasiado contenido.
- Evita tamaños de chunk muy pequeños: Fragmentos de menos de 200 caracteres pueden perder sentido y generar embeddings menos útiles.
- Revisa el separador: Si tu texto contiene saltos de línea dentro de párrafos, considera usar un separador diferente (por ejemplo,
.
o;
). - Comprueba la longitud total: Si el texto es muy grande, verifica que el número de chunks no supere los límites de tu modelo de IA o base de datos.
Consideraciones de Seguridad
- El componente trabaja únicamente con los datos que el usuario carga; no envía información a servidores externos.
- Asegúrate de que los datos sensibles estén cifrados o protegidos antes de introducirlos en el flujo.
- No se requieren permisos especiales ni claves de API para usar Split Text.