Saltearse al contenido

Whisper Model Base

Whisper Model Base es un componente que convierte archivos de audio en texto.
El usuario sube un archivo de audio (por ejemplo, un clip de voz o una llamada) y el componente devuelve la transcripción en forma de texto. Además, el componente puede integrarse como una herramienta que un agente de IA puede usar para procesar audio dentro de flujos de trabajo más amplios.

¿Cómo funciona?

El componente utiliza el modelo Whisper, un modelo de reconocimiento de voz de código abierto. Cuando se le envía audio en formato base64, el componente lo decodifica y lo pasa al modelo Whisper, que procesa el audio y devuelve el texto transcrito.
El proceso se realiza localmente en el servidor de Nappai, sin necesidad de enviar datos a servicios externos. El componente también incluye una ruta a ffmpeg para convertir formatos de audio si es necesario.

Entradas

Modo de Mapeo (Mapping Mode)

Este componente cuenta con un modo especial llamado “Mapping Mode” (Modo de Mapeo). Cuando activas este modo mediante el interruptor, se habilita una entrada adicional llamada “Mapping Data” y cada campo de entrada te ofrece tres formas diferentes de proporcionar datos:

  • Fixed (Fijo): Escribes el valor directamente en el campo.
  • Mapped (Mapeado): Conectas la salida de otro componente para usar su resultado como valor.
  • Javascript: Escribes código Javascript para calcular el valor dinámicamente.

Esta flexibilidad te permite crear flujos de trabajo más dinámicos y conectados.

Campos de Entrada

  • Speech to Text: El audio en formato base64 que se convertirá a texto. Se suele usar el componente Binary para subir archivos de audio.
  • Mapping Mode: Activa el modo de mapeo para procesar varios registros en lote.
  • Tool Name: El nombre que tendrá la herramienta cuando el componente se conecte como una herramienta de IA.
  • Tool Description: Una descripción detallada de lo que hace la herramienta, útil para que el agente entienda cuándo usarla.
  • Tools arguments metadata: Metadatos que definen los argumentos que la herramienta aceptará.

Salidas

  • Data: Devuelve los datos transcritos en formato Data. Se puede usar en otros componentes que requieran texto.
  • Tool: Devuelve la herramienta configurada (Tool) para que un agente de IA la invoque dentro de sus flujos de decisión.

Ejemplo de Uso

  1. Subir audio
    Conecta el componente Binary a la entrada Speech to Text y sube un archivo MP3 o WAV.
  2. Activar Mapeo (opcional)
    Si quieres procesar varios archivos a la vez, activa el interruptor Mapping Mode y conecta una lista de archivos a la entrada Mapping Data.
  3. Configurar la herramienta
    Establece Tool Name como “TranscribeAudio” y escribe una breve descripción en Tool Description.
  4. Ejecutar
    Haz clic en “Run” y el componente devolverá la transcripción en la salida Data y la herramienta en Tool.
  5. Usar la salida
    Conecta la salida Data a un componente de texto para mostrar el resultado, o la salida Tool a un agente de IA para que lo invoque automáticamente cuando necesite transcribir audio.

Componentes Relacionados

  • Binary Component – Permite subir archivos de audio que luego se pasan a Whisper.
  • WhisperCustom – La clase base que implementa la lógica de Whisper; WhisperComponent hereda de ella.
  • Text Output – Muestra el texto transcrito en el dashboard.
  • Agent Toolkit – Permite usar la salida Tool como una herramienta dentro de un agente de IA.

Consejos y Mejores Prácticas

  • Usa formatos de audio comunes (MP3, WAV, FLAC) para evitar problemas de decodificación.
  • Activa Mapeo solo cuando necesites procesar lotes; de lo contrario, el modo fijo es más sencillo.
  • Define un Tool Name claro para que el agente lo reconozca fácilmente.
  • Limita la longitud del audio: Whisper funciona mejor con clips de menos de 30 min; para grabaciones largas, divídelas en partes.
  • Revisa la salida antes de usarla en decisiones críticas; el modelo puede cometer errores con ruido o acentos fuertes.

Consideraciones de Seguridad

  • Privacidad del audio: Los archivos de audio se procesan localmente, pero asegúrate de que los usuarios entiendan que el contenido puede ser almacenado temporalmente en el servidor.
  • Control de acceso: Restringe el uso de este componente a usuarios con permisos de procesamiento de datos sensibles.
  • Auditoría: Registra cada transcripción para cumplir con políticas de trazabilidad si es necesario.