Ollama OCR
Este componente está diseñado para leer y comprender documentos visuales. Funciona como un asistente de lectura que toma imágenes o PDFs, los analiza con modelos de inteligencia artificial y devuelve el texto encontrado en un formato ordenado y listo para usarse en tus automatizaciones.
¿Cómo funciona?
Cuando conectas una imagen o un PDF a este nodo, el componente realiza varios pasos automáticos en segundo plano:
- Prepara el archivo: Si recibes un PDF, lo divide en páginas individuales. Si la imagen está borrosa o tiene poco contraste, aplica ajustes suaves para mejorar la legibilidad.
- Conecta con Ollama: Envía la información visual al modelo de visión que hayas seleccionado (ya sea alojado localmente en tu equipo o en la nube de Ollama).
- Lee y organiza: La IA identifica caracteres, números, tablas o estructuras y las transforma en texto plano. También te devuelve un indicador de confianza para que sepas qué tan precisa fue la lectura.
- Devuelve el resultado: Toda la información procesada se entrega como una salida estructurada que puedes conectar directamente a otros nodos de tu flujo.
Nota de desarrollo: Este componente está actualmente en fase beta (is_development = True). Es ideal para probar automatizaciones y prototipos. En entornos de producción, se recomienda validar sus resultados antes de ejecutar procesos críticos de forma autónoma.
Conexión y Credenciales
Este componente requiere configurar previamente una credencial en el panel de Nappai para poder interactuar con Ollama Cloud. Si prefieres usar una versión local en tu computadora, puedes omitir este paso.
- Dirígete a la sección de Credenciales en tu panel de Nappai.
- Crea una nueva credencial del tipo Ollama Cloud API y guarda tu clave de API (Ollama Turbo API Key) en el campo correspondiente. Puedes obtener tu clave en la Consola de Ollama Turbo.
- En tu flujo de trabajo, selecciona la credencial guardada en el campo de entrada Credential de este nodo.
Entradas
Modo de Mapeo (Mapping Mode)
Este componente cuenta con un modo especial llamado “Mapping Mode” (Modo de Mapeo). Cuando activas este modo mediante el interruptor, se habilita una entrada adicional llamada “Mapping Data” y cada campo de entrada te ofrece tres formas diferentes de proporcionar datos:
- Fixed (Fijo): Escribes el valor directamente en el campo.
- Mapped (Mapeado): Conectas la salida de otro componente para usar su resultado como valor.
- Javascript: Escribes código Javascript para calcular el valor dinámicamente.
Esta flexibilidad te permite crear flujos de trabajo más dinámicos y conectados.
Campos de Entrada
- Ollama Base URL: La dirección web de tu servidor Ollama. Usa
http://localhost:11434para modelos locales ohttps://ollama.compara la versión en la nube. - Credential: Selecciona la credencial que creaste previamente en Nappai. Solo es necesario si vas a usar Ollama en la nube.
- Model Name: Elige el modelo de visión de Ollama que realizará la lectura. Haz clic en el botón de actualizar para ver la lista de modelos disponibles.
- OCR Prompt: Instrucciones escritas que guían a la IA sobre qué texto extraer y cómo organizarlo. Por ejemplo, puedes pedirle que lea todo el texto, que extraiga información en formato JSON o que identifique campos clave.
- Image/PDF Input: La imagen o el documento PDF que deseas procesar. Puede recibir archivos binarios, datos o mensajes previos del flujo.
- Draw Bounding Boxes: Si lo activas y el modelo lo soporta, la salida incluirá la imagen original con recuadros dibujados alrededor del texto detectado.
- Process PDF Pages: Si lo activas, cada página de un PDF se tratará como una imagen independiente para mejorar la precisión.
- PDF DPI: Controla la resolución al convertir PDFs en imágenes. Un valor más alto mejora la calidad pero puede hacer el proceso más lento.
- Enhance Images: Activa mejoras automáticas inteligentes antes de la lectura (conserva el color y ajusta solo lo necesario). Se recomienda mantenerlo activado.
- Binarize (Black & White): Convierte la imagen a blanco y negro puro. ⚠️ No se recomienda para modelos modernos, ya que puede reducir la precisión.
- Gentle Contrast: Aplica un ajuste suave de contraste para imágenes borrosas o poco claras. Recomendado.
- Subtle Sharpen: Aplica un ligero enfoque para mejorar la nitidez sin alterar la imagen. Recomendado.
- Binarize Threshold: 0 = ajuste automático. Si lo prefieres, puedes definir un valor manual entre 1 y 255.
- Max Tokens: Límite máximo de palabras o tokens que la IA generará en su respuesta.
- Temperature: Controla la creatividad o el rigor de la respuesta (0.0 = exacto y predecible, 1.0 = más flexible y creativo). Para OCR, se recomienda un valor bajo.
Salidas
- OCR Results: Contiene el texto extraído, un indicador de precisión y metadatos técnicos. Puedes usar esta salida para alimentar asistentes de IA, almacenar datos en hojas de cálculo o bases de datos, o activar reglas de validación en tu flujo.
Ejemplo de Respuesta JSONjson
{
“extracted_text”: “FACTURA Nº 1024\nFecha: 20/11/2024\nProveedor: Servicios Cloud S.A.\nTotal: $245.50 USD\nEstado: Pendiente de Pago”,
“confidence_score”: 0.91,
“processing_metadata”: {
“model_used”: “llava”,
“processing_time_ms”: 1150,
“pages_processed”: 1,
“warnings”: [],
“language_detected”: “es”
}
}
En este ejemplo, extracted_text contiene el resultado principal listo para mapear a otros nodos. confidence_score te indica qué tan seguro está el sistema de la lectura (valores cercanos a 1.0 son ideales). processing_metadata registra detalles técnicos útiles para auditorías, depuración o ajuste de rendimiento.
Conectividad
Este componente se conecta naturalmente a nodos de Procesamiento de Texto (para limpiar o reorganizar la información), Asistentes de IA (para generar resúmenes, responder a clientes o tomar decisiones basadas en los datos), Hojas de Cálculo/Bases de Datos (para archivar la información extraída) y Sistemas de Notificaciones (para alertar sobre documentos nuevos o incompletos). También suele recibir datos de nodos de carga de archivos, sistemas de gestión documental (DMS) o flujos de correo electrónico. Su diseño permite integrarse fluidamente en pipelines de extracción, validación automática o preparación de datos para análisis.
Ejemplo de Uso
Imagina que tu equipo recibe facturas escaneadas por correo cada semana. Con este componente, puedes crear un flujo automático:
- El nodo recibe el PDF adjunto al correo.
- Seleccionas el modelo
llavay activasProcess PDF Pages. - Mapeas el texto extraído a un asistente de IA que redacta un resumen ejecutivo o lo guarda en una hoja de cálculo de seguimiento.
- Si el
confidence_scorees bajo, el flujo puede derivar manualmente a un humano para revisión. Todo el proceso ocurre sin intervención manual, ahorrando tiempo y reduciendo errores de digitación.
Consejos y Mejores Prácticas
- Utiliza un modelo ligero como
llavapara documentos comunes y velocidad, o modelos especializados comonougatpara tablas complejas o documentos académicos. - Activa
Enhance Images,Gentle ContrastySubtle Sharpenen imágenes de baja calidad para mejorar drásticamente la precisión de la lectura. - Mantén el valor de
Temperaturebajo (entre 0.1 y 0.3) para obtener lecturas exactas y consistentes del texto. - Si trabajas con PDFs extensos, activa
Process PDF Pagespara evitar que la IA pierda información al leer páginas muy densas. - Verifica siempre el indicador de confianza en tus automatizaciones: si es menor a 0.75, considera implementar un paso de validación humana o ajustar el prompt para mayor claridad.
- Al estar en fase de desarrollo, este componente es ideal para pruebas y prototipos. En entornos de producción, valida sus respuestas antes de ejecutar procesos críticos de forma autónoma.
Consideraciones de Seguridad
- Si usas la versión local (
localhost), los archivos nunca salen de tu equipo, lo que garantiza máxima privacidad y control. - Al elegir Ollama Cloud, los documentos se envían a servidores externos. Asegúrate de que tu credencial esté protegida en Nappai y que el contenido de tus archivos cumpla con las políticas de privacidad de tu organización.
- Nunca compartas claves de API directamente en los campos de configuración; utiliza siempre el selector Credential para mantener tus secretos seguros y centralizados.
- Para documentos sensibles, revisa las políticas de uso de los modelos de visión de Ollama y ajusta los límites de
Max Tokenspara controlar el consumo de datos procesados.