Speech to Text
El componente Speech to Text convierte cualquier archivo de audio o vídeo en texto.
Solo necesitas subir el archivo y proporcionar una clave de OpenAI; el resto lo hace el sistema.
¿Cómo funciona?
- Entrada – El componente acepta un archivo de audio o vídeo.
- Extracción de audio – Si el archivo es vídeo, se extrae la pista de audio.
- División en fragmentos – El audio se corta en trozos de hasta 500 s (≈ 25 MB) para cumplir con los límites de la API.
- Transcripción – Cada fragmento se envía a OpenAI Whisper (
whisper-1
) y se devuelve el texto. - Salida – El resultado es un objeto
Message
que contiene el texto transcrito.
Entradas
Credencial
Para usar el servicio de OpenAI debes haber creado una credencial de tipo OpenAI API en la sección de credenciales de Nappai.
En el componente selecciona esa credencial en el campo Credential.
Campos de Entrada
- Input Audio o Video
El archivo que quieres transcribir. Puede ser cualquier formato de audio (mp3, wav, etc.) o vídeo (mp4, avi, etc.). El componente extraerá automáticamente la pista de audio si es necesario.
Salidas
- Output – Un objeto
Message
que contiene el texto transcrito.
Puedes usarlo directamente en otros componentes, guardarlo en una base de datos o mostrarlo en tu dashboard.
Ejemplo de Uso
- Añade el componente “Speech to Text” a tu flujo.
- Selecciona la credencial de OpenAI en el campo “Credential”.
- Carga un archivo (por ejemplo,
meeting.mp4
). - Ejecuta el flujo.
- El componente devolverá el texto transcrito en la salida Output, que puedes conectar a un componente de visualización o a un almacenamiento.
Componentes Relacionados
- Text to Speech – Convierte texto en audio.
- Audio Analysis – Extrae métricas de audio (p. ej., duración, nivel de ruido).
- File Upload – Permite subir archivos desde el dashboard.
Consejos y Mejores Prácticas
- Audio claro: Cuanto más limpio sea el audio, mejor será la transcripción.
- Tamaño moderado: Si el archivo es muy grande, el componente lo dividirá automáticamente, pero evita archivos de más de 1 GB para no sobrecargar la API.
- Clave segura: Mantén tu clave de OpenAI oculta y no la compartas públicamente.
- Revisar resultados: La transcripción puede contener errores; revisa el texto antes de usarlo en procesos críticos.
Consideraciones de Seguridad
- La clave de OpenAI se almacena de forma segura en la credencial; no aparece en la interfaz de usuario.
- Evita subir audio que contenga información confidencial a menos que estés seguro de que la API de OpenAI no la compartirá.
- Si trabajas con datos sensibles, considera usar un modelo local o una solución de transcripción interna.