Saltearse al contenido

Documents ⇢ Data

Documents ⇢ Data es un componente sencillo que toma documentos creados con LangChain y los transforma en objetos de tipo Data. Esto permite que los datos extraídos de archivos, bases de datos o cualquier fuente que genere documentos se puedan usar en el resto del flujo de trabajo de Nappai.

¿Cómo funciona?

El componente recibe una lista de objetos Document de LangChain.
Internamente, revisa si la entrada es un solo documento y, en ese caso, lo envuelve en una lista. Luego, por cada documento, crea un objeto Data usando Data.from_document(document). El resultado es una lista de objetos Data que se devuelve como salida y también se guarda en el estado interno del componente (self.status). No se llama a ninguna API externa; todo el procesamiento ocurre localmente dentro del entorno de Nappai.

Entradas

Campos de Entrada

  • Documents:
    Es la entrada principal del componente. Debes proporcionar una lista de objetos Document de LangChain.
    • Visible en: Todas las operaciones (el componente no tiene operaciones distintas).

Salidas

El componente devuelve una lista de objetos Data. Cada objeto Data contiene la información extraída del documento original (por ejemplo, texto, metadatos, etc.) y está listo para ser consumido por otros componentes que trabajen con datos estructurados.

Ejemplo de Uso

  1. Cargar documentos
    Usa un componente como DocumentLoader para leer un PDF o una base de datos y generar una lista de Document.

  2. Convertir a Data
    Conecta la salida de DocumentLoader al campo Documents de Documents ⇢ Data.
    El componente transformará cada documento en un objeto Data.

  3. Procesar los datos
    Conecta la salida de Documents ⇢ Data a un componente que realice análisis, búsqueda o cualquier otra operación sobre los datos. text [DocumentLoader] → [Documents ⇢ Data] → [DataProcessor]

Componentes Relacionados

  • DocumentLoader – Carga documentos desde archivos o bases de datos.
  • DataProcessor – Realiza operaciones sobre objetos Data (filtrado, búsqueda, análisis).
  • DataToDocuments – Convierte objetos Data de vuelta a documentos si es necesario.

Consejos y Mejores Prácticas

  • Verifica la calidad de los documentos: Asegúrate de que los documentos no estén vacíos y contengan el formato esperado antes de enviarlos al componente.
  • Controla el tamaño: Si trabajas con documentos muy grandes, considera dividirlos para evitar sobrecargar la memoria.
  • Revisa los metadatos: Los metadatos de los documentos pueden ser útiles para posteriores filtros o búsquedas.
  • Prueba con un subconjunto: Antes de procesar todo el lote, prueba el flujo con unos pocos documentos para confirmar que la conversión funciona correctamente.

Consideraciones de Seguridad

  • El componente no realiza llamadas externas, por lo que no expone datos a servicios externos.
  • Si los documentos contienen información sensible, mantén el flujo dentro de un entorno seguro y evita compartir los objetos Data con usuarios no autorizados.
  • Revisa las políticas de privacidad de tu organización antes de procesar datos confidenciales.