AssemblyAI
AssemblyAI es un componente que convierte archivos de audio en texto.
Solo necesitas subir el archivo, indicar el idioma y el componente se encargará de enviar el audio a la API de AssemblyAI y devolver el texto transcrito.
¿Cómo funciona?
Cuando cargas un archivo de audio (mp3, mp4, wav, m4a, mkv) el componente lo envía a la API de AssemblyAI.
La API procesa el audio, reconoce el habla y devuelve el texto transcrito.
El componente recibe esa respuesta y la entrega como un objeto Data que puedes usar en el resto del flujo de trabajo.
Además, el componente puede devolver una instancia de LLMAudioVideoEncoder (un transcriber que puede usarse con LLMs) para que puedas integrar la transcripción en modelos de lenguaje.
Entradas
Este componente requiere una credencial de tipo AssemblyAI API.
Para usarlo, primero configura la credencial en la sección de credenciales de Nappai y luego selecciónala en el campo Credential del componente.
Campos de Entrada
- Audio File: El archivo de audio que quieres transcribir.
- Message: Mensaje con archivos (puede usarse para pasar datos adicionales).
- Language: El idioma del audio (por ejemplo,
en
para inglés,es
para español, etc.).
Salidas
- Transcription Text: Texto transcrito del audio.
- LLM Audio Transcriber: Instancia de transcriber que puede usarse con modelos de lenguaje.
Ejemplo de Uso
- Añade el componente AssemblyAI al flujo de trabajo.
- Selecciona la credencial “AssemblyAI API” en el campo “Credential”.
- Carga un archivo de audio en el campo “Audio File”.
- Elige el idioma en el menú desplegable “Language”.
- Ejecuta el flujo.
- El resultado aparecerá en la salida Transcription Text, que puedes conectar a un componente de visualización de texto o a un modelo de IA para análisis adicional.
Componentes Relacionados
- LLMAudioVideoEncoder – Transcriber que se puede usar con modelos de lenguaje.
- FileInput – Entrada para subir archivos.
- DropdownInput – Entrada para seleccionar opciones (como el idioma).
Consejos y Mejores Prácticas
- Usa archivos de audio de buena calidad para obtener transcripciones más precisas.
- Si el audio contiene varios hablantes, considera usar la opción de “speaker diarization” de AssemblyAI (configurable en la API).
- Guarda la salida Transcription Text en una variable de flujo para reutilizarla en pasos posteriores.
Consideraciones de Seguridad
- La credencial AssemblyAI API contiene tu API Key. No la compartas públicamente.
- Asegúrate de que el archivo de audio no contenga información sensible antes de subirlo a la API.