OpenAI Whisper

OpenAI Whisper es un componente que convierte archivos de audio en texto. Puedes subir un archivo de audio en varios formatos (mp3, wav, etc.) y el componente envía ese archivo a la API de OpenAI Whisper, que devuelve la transcripción en el idioma que elijas. El resultado se entrega como datos que puedes usar en otras partes de tu flujo de trabajo.

¿Cómo funciona?

Cuando seleccionas un archivo de audio y configuras la credencial de OpenAI, el componente hace una llamada HTTP a la API de OpenAI Whisper. La API procesa el audio, reconoce el habla y devuelve el texto transcrito. El componente simplemente pasa ese texto a la salida “Transcription Text”. Además, el componente expone un objeto “LLM Audio Transcriber” que puede ser usado por otros componentes que necesiten un transcriptor de audio.

Entradas

Audio File: El archivo de audio que quieres transcribir. Puedes elegir entre mp3, mp4, wav, m4a y mkv.
Message: Un mensaje que puede contener archivos. Se usa cuando quieres enviar el audio como parte de un mensaje más grande.
Language: El idioma del audio. El valor por defecto es “en” (inglés). Puedes seleccionar otro idioma de la lista (es, fr, de, etc.).

Credencial
Para usar este componente debes haber creado una credencial de tipo OpenAI API en la sección de credenciales de Nappai.

Ve a la sección de credenciales y crea una nueva credencial “OpenAI API”.
Ingresa tu OpenAI Api Key (es una contraseña).
En el componente, selecciona esa credencial en el campo “Credential”.

Salidas

Transcription Text: El texto transcrito del archivo de audio. Se entrega como un objeto de tipo Data que puedes usar en otros componentes (por ejemplo, para enviar por correo, guardarlo en una base de datos, etc.).
LLM Audio Transcriber: Un objeto LLMAudioVideoEncoder (subclase de BaseTranscriber) que representa al transcriptor. Puede ser útil si necesitas pasar el transcriptor a otro componente que requiera un objeto de transcripción.

Ejemplo de Uso

Arrastra el componente “OpenAI Whisper” al lienzo.
Selecciona la credencial “OpenAI API” que creaste.
Haz clic en el campo Audio File y sube un archivo de audio (por ejemplo, meeting.mp3).
Elige el idioma “es” si el audio está en español.
Conecta la salida Transcription Text a un componente de “Text Output” para ver el resultado en el panel de resultados.
Si quieres usar el transcriptor en otro paso, conecta la salida LLM Audio Transcriber a ese componente.

Componentes Relacionados

OpenAI GPT – Usa el texto transcrito como entrada para generar respuestas o resúmenes.
File Upload – Permite subir archivos de audio desde la interfaz del usuario.
Text Output – Muestra el texto transcrito en el panel de resultados.
Data Store – Guarda la transcripción en una base de datos o archivo.

Consejos y Mejores Prácticas

Usa archivos de audio de buena calidad: Ruido de fondo o voces muy distorsionadas pueden reducir la precisión de la transcripción.
Selecciona el idioma correcto: Whisper funciona mejor cuando se indica el idioma correcto; evita usar “en” si el audio está en otro idioma.
Limita el tamaño del archivo: La API de OpenAI tiene límites de tamaño; si tu archivo es muy grande, considera dividirlo en partes.
Revisa la transcripción: Aunque Whisper es preciso, siempre es buena idea revisar el texto antes de usarlo en procesos críticos.
Gestiona la credencial con cuidado: No compartas tu API Key públicamente y revoca las credenciales si sospechas que han sido comprometidas.

Consideraciones de Seguridad

Protección de la API Key: La clave de OpenAI se almacena en la credencial y no se muestra en el panel. Asegúrate de que solo usuarios autorizados tengan acceso a la sección de credenciales.
Datos sensibles: Si el audio contiene información confidencial, considera usar la opción de “transcripción segura” de OpenAI (si está disponible) o almacenar el archivo en un entorno seguro.
Cumplimiento: Verifica que el uso de la API de OpenAI cumpla con las políticas de privacidad y regulaciones locales (por ejemplo, GDPR).