MistralOCR
El componente MistralOCR es tu herramienta central en Nappai para convertir imágenes y documentos PDF en texto y datos organizados. Utiliza modelos avanzados de inteligencia artificial para leer, analizar y extraer información clave de forma automática, permitiendo que tus flujos de trabajo manejen facturas, contratos, formularios y más sin intervención manual.
¿Cómo funciona?
Cuando conectas una imagen o un PDF a este componente, el sistema primero prepara el archivo para que la IA pueda “mirarlo” con claridad. En lugar de solo copiar el texto, MistralOCR analiza la disposición visual del documento: detecta dónde se encuentran cada palabra, párrafo o tabla, y entiende el contexto general.
El componente se comunica con los modelos de visión de Mistral (familia Pixtral) mediante una API externa. Estos modelos no solo reconocen caracteres, sino que interpretan el diseño del documento, lo que les permite distinguir encabezados, piezas de tabla o firmas con mayor precisión que un lector de texto tradicional. Si activas las opciones avanzadas, el sistema divide el análisis página por página y organiza la extracción respetando la estructura original. Finalmente, devuelve un resultado estructurado que incluye no solo el texto leído, sino también metadatos útiles como el nivel de confianza de la lectura y la ubicación exacta de cada fragmento en el documento original.
Conexión y Credenciales
Este componente requiere configurar previamente una credencial en el panel de Nappai para poder interactuar con el servicio externo:
- Dirígete a la sección de Credenciales en tu panel de Nappai.
- Crea una nueva credencial del tipo especificado para este componente y guarda los campos requeridos (claves de API, tokens, etc.).
- En tu flujo de trabajo, selecciona la credencial guardada en el campo de entrada Credential de este nodo.
Entradas
Modo de Mapeo (Mapping Mode)
Este componente cuenta con un modo especial llamado “Mapping Mode” (Modo de Mapeo). Cuando activas este modo mediante el interruptor, se habilita una entrada adicional llamada “Mapping Data” y cada campo de entrada te ofrece tres formas diferentes de proporcionar datos:
- Fixed (Fijo): Escribes el valor directamente en el campo.
- Mapped (Mapeado): Conectas la salida de otro componente para usar su resultado como valor.
- Javascript: Escribes código Javascript para calcular el valor dinámicamente.
Esta flexibilidad te permite crear flujos de trabajo más dinámicos y conectados.
Campos de Entrada
Los siguientes campos están disponibles para configurar este componente. Cada campo puede estar visible en diferentes operaciones:
- Imagen / Archivo: Es el origen visual que contiene el texto o la estructura que quieres extraer. Aquí puedes subir una fotografía, un escaneado o un documento PDF. El sistema se encarga de convertirlo automáticamente al formato necesario para el análisis.
- Procesamiento PDF / Modo Layout: Controla cómo se manejan los documentos multipágina o con estructuras complejas. Al activarlo, el componente organiza la extracción página por página y respeta el diseño original, lo cual es ideal para formularios o documentos con tablas.
Salidas
Una vez procesado, MistralOCR devuelve una respuesta estructurada lista para ser consumida por el resto de tu automatización. En lugar de un simple bloque de texto plano, recibirás un objeto organizado que incluye:
- El texto extraído.
- Metadatos de confianza (qué tan seguro está el sistema de la lectura).
- Información de ubicación (coordenadas o “cajas delimitadoras” que indican dónde estaba el texto en la imagen/PDF).
- Agrupación por páginas (en caso de documentos extensos).
Esto te permite alimentar otros nodos para análisis de texto, bases de datos, o sistemas de respuesta aumentada (RAG) con información ya ordenada y verificada.
Ejemplo de Respuesta JSONjson
{ “ocr_result”: [ { “page_index”: 1, “text”: “FACTURA Nº 2024-085”, “confidence”: 0.98, “bbox”: [120, 50, 350, 80], “context”: “titulo” }, { “page_index”: 1, “text”: “Total a pagar: $1,250.00 MXN”, “confidence”: 0.95, “bbox”: [120, 450, 300, 480], “context”: “valor_financiero” } ] }
Conectividad
Este componente suele conectarse a nodos posteriores dentro de tu flujo de automatización. Su salida está diseñada para integrarse de forma nativa con:
- Análisis de Texto / Modelos de Lenguaje (LLMs): Para interpretar el significado del texto extraído, responder a preguntas sobre el documento o generar resúmenes ejecutivos.
- Base de Datos / Herramientas de Almacenamiento: Para registrar la información estructurada en registros organizados, tablas o sistemas de gestión empresarial.
- Generación de Documentos / Reportes: Para rellenar plantillas, generar boletas de pago automatizadas o crear extractos mensuales.
- Validación y Enrutamiento Condicional: Debido a que la salida incluye niveles de “confianza”, puedes conectar el flujo a un nodo de decisión que redirija automáticamente documentos con baja precisión para revisión humana.
Ejemplo de Uso
Imagina que recibes un paquete diario de facturas escaneadas en PDF. En lugar de abrirlas una por una, conectas la carpeta de descargas al nodo MistralOCR. Activa el modo de mapeo y el procesamiento PDF para mantener el orden. En segundos, obtienes una lista estructurada con el número de factura, la fecha y el total, cada uno con su nivel de confianza. Luego, conectas este resultado a un nodo de base de datos para registrar los pagos automáticamente y a un asistente de IA para generar un resumen mensual de gastos y alertas de presupuesto.
Consejos y Mejores Prácticas
- Asegúrate de que las imágenes o PDFs tengan buena resolución y el texto sea legible; la precisión del OCR mejora drásticamente con archivos nítidos y fondos limpios.
- Usa el modo Procesamiento PDF / Modo Layout cuando trabajes con formularios, tablas o documentos con diseños complejos para mantener el orden lógico y evitar que el texto se mezcle.
- Revisa los valores de “confianza” en la salida; si un campo crítico tiene un valor bajo, puedes activar una ruta alternativa en tu flujo para solicitar verificación manual o reprocesar el documento.
- Si el documento es muy extenso (>10 páginas), considera dividirlo en páginas individuales antes de enviarlo para optimizar los tiempos de respuesta, aunque el componente está optimizado para manejar multipágina automáticamente.
Consideraciones de Seguridad
- Tu clave de API se almacena de forma segura en el panel de credenciales de Nappai y nunca se expone directamente en los flujos de trabajo ni en logs visibles.
- Los documentos subidos se procesan mediante servicios externos bajo políticas de privacidad estándar; verifica que el manejo de tus archivos cumpla con las normativas internas de tu organización.
- Como el componente está en fase de desarrollo activo, se recomienda validar los resultados extraídos antes de usarlos para decisiones críticas o automatizaciones que afecten datos sensibles, hasta que se complete la versión estable.