Whisper Local

Bienvenido al componente Whisper Local, una herramienta integrada en Nappai diseñada para convertir grabaciones de audio en texto escrito de manera sencilla y segura.

Imagina que tienes una grabación de una reunión, un audiolibro o una nota de voz y necesitas el texto exacto de lo que se dice. En lugar de escribirlo manualmente o pagar por servicios externos de transcripción, este componente utiliza inteligencia artificial directamente en tu computadora. La gran ventaja es que no necesitas conexión a internet ni configurar claves de acceso complejas; todo el proceso se realiza de forma privada y local.

¿Cómo funciona?

El funcionamiento de este componente es muy intuitivo: tú le proporcionas un archivo de audio y él te devuelve el texto.

Carga de Audio: Recibes el archivo de audio (como una grabación de voz o un audio de reunión).
Procesamiento Local: El componente carga un “cerebro” digital (un modelo de IA llamado Whisper) en tu sistema. Aunque la primera vez puede tomar unos segundos en prepararse, este se guarda en tu computadora para que las próximas veces sea mucho más rápido.
Escucha y Transcripción: El componente “escucha” el audio, entiende el idioma (incluso si lo detecta automáticamente) y escribe lo que dice.
Resultado: Al finalizar, obtienes el texto completo de la grabación, listo para copiar, editar o enviar a otras partes de tu flujo de trabajo en Nappai.

Conexión y Credenciales

No se requiere ninguna configuración adicional.

A diferencia de otros servicios que pueden necesitar que te registres en plataformas externas o introduzcas contraseñas, Whisper Local funciona de inmediato. Todo lo necesario para ejecutar la transcripción ya viene incluido en tu instalación de Nappai, garantizando que tu información sensible nunca salga de tu dispositivo.

Entradas

A continuación, encontrarás los campos necesarios para configurar este componente:

Audio: Es el archivo de grabación que deseas convertir en texto. Puedes conectar aquí salidas de otros componentes que hayan grabado audio o guardado archivos.
- Visible en: Todas las operaciones
Model size: Define qué tan “inteligente” y detallado será el análisis del audio.
- Tiny: Es extremadamente rápido pero menos preciso. Ideal si tienes un equipo de computación con pocos recursos o necesitas velocidad extrema.
- Base: La opción recomendada. Ofrece un buen equilibrio entre velocidad y precisión para la mayoría de los usuarios.
- Visible en: Todas las operaciones
Language: Permite indicar en qué idioma se habla en el audio.
- Auto: El sistema intentará adivinar el idioma automáticamente. Es la opción más segura si no estás seguro del idioma.
- Idiomas específicos (es, en, fr, etc.): Si sabes que el audio es en español, inglés, francés, etc., seleccionarlo aquí puede hacer que la transcripción sea ligeramente más rápida y precisa.
- Visible en: Todas las operaciones

Salidas

El componente produce un único resultado principal una vez que completa la transcripción:

Transcript

Es el texto resultante de haber escuchado el audio.

Ejemplo de Respuesta JSON Así se vería la información que obtendrás al usar este componente. Puedes usar esta variable text en otros nodos de tu flujo de automatización. json { “text”: “Hola, esta es una prueba de transcripción. El sistema está funcionando correctamente y convierte el audio en texto sin problemas.” }

Conectividad

Este componente es un “puente” entre el audio y el texto. Lógicamente, suele conectarse de la siguiente manera:

Entrada (Audio): Se conecta a salidas de componentes que capturan audio (como un asistente de voz que escucha al usuario) o que almacenan archivos (como un sistema que guarda grabaciones de llamadas).
Salida (Transcript): Se conecta a componentes que necesitan leer texto, como:
- Asistentes de IA (para que la IA responda basándose en lo que se dijo).
- Generadores de correos o documentos (para redactar un resumen de la llamada).
- Bases de datos (para guardar el contenido de las conversaciones).

Ejemplo de Uso

Escenario: Quieres automatizar el resumen de tus reuniones de equipo.

Usas un componente de grabación para guardar las llamadas de Zoom/Teams.
Conectas ese archivo al campo Audio del componente Whisper Local.
El Whisper Local devuelve el texto completo de la reunión en su campo Transcript.
Conectas esa salida a un Asistente de IA que lee el texto y escribe un resumen ejecutivo de los acuerdos tomados.

Consejos y Mejores Prácticas

Paciencia inicial: La primera vez que proceses un audio, puede tardar un poco más mientras se descargan e instalan los modelos en tu PC. Las próximas veces serán mucho más rápidas.
Elige el tamaño correcto: Si tu computadora es antigua o va lenta, usa el modelo Tiny. Si tienes una computadora moderna, Base te dará mejores resultados.
Idioma desconocido: Si tienes audios en varios idiomas mezclados, deja el campo Language en Auto para asegurar que se entienda todo.
Limpieza automática: El componente se encarga de limpiar los archivos temporales después de usarlos, por lo que no tienes que preocuparte por liberar espacio manualmente.

Consideraciones de Seguridad

Privacidad Total: Dado que todo el procesamiento se realiza de forma local en tu dispositivo, tus audios y transcripciones nunca se envían a servidores externos ni a la nube. Esto es ideal para mantener la confidencialidad de datos sensibles.
Sin Internet: Puedes usar este componente incluso si estás desconectado de la red, ya que no requiere comunicación con servidores externos.