Transmisión de texto a voz
Convierte texto a habla con entrega de audio en tiempo real.
Características Clave:
- Streaming de audio de baja latencia - la reproducción puede comenzar inmediatamente a medida que llegan los fragmentos
- Detección automática de idiomas
- Soporte para múltiples formatos: MP3 o PCM/WAV
- Audio de alta calidad: tasa de muestreo de 24 kHz, mono de 16 bits
Cuerpo de la Solicitud:
text: Texto de entrada para convertir a habla - requeridolanguage: Código de idioma (predeterminado: “auto”) - “auto” para detección automática, o códigos ISO 639-1: en, zh, hi, es, ar, bn, pt, ru, ja, pa, de, ko, fr, tr, it, th, pl, nl, id, vi, urformat: Formato de audio (predeterminado: “mp3”) - “mp3” para audio MPEG comprimido (96 kbps) o “pcm” para WAV sin comprimirmodel: Identificador del modelo TTS (predeterminado: “auto”) - “auto” selecciona el proveedor predeterminado; un id resoluble en el registro despacha al proveedor correspondiente (nota: no todos los proveedores soportanformat: "mp3")
Respuesta:
- Transmite fragmentos de audio en tiempo real
- Devuelve el encabezado
X-Language-Codecon el idioma detectado/utilizado - Content-Type:
audio/mpeg(MP3) oaudio/wav(PCM)
Casos de Uso:
- Aplicaciones en tiempo real que requieren reproducción de audio inmediata
- Respuestas de voz interactivas
- Escenarios de texto a voz de baja latencia
Autorizaciones
Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Encabezados
Optional external end-user identifier forwarded by the API gateway.
Cuerpo
Parámetros de solicitud para la conversión de texto a voz en streaming con selección de idioma y opciones de formato.
Texto de entrada para convertir a voz
1Código de idioma: 'auto' para detección automática, o códigos de idioma ISO 639-1.
auto, en, zh, hi, es, ar, bn, pt, ru, ja, pa, de, ko, fr, tr, it, th, pl, nl, id, vi, ur Identificador del modelo TTS. Por defecto es 'auto', que selecciona el proveedor predeterminado. Los IDs resolubles en el registro envían al proveedor correspondiente.
"auto"
Formato de salida de audio: 'mp3' para audio MPEG (predeterminado), o 'pcm' para PCM/WAV sin comprimir (24 kHz, 16 bits, mono)
mp3, pcm Respuesta
Transmisión de audio en formato MP3 o PCM/WAV con encabezado de código de idioma
MP3 audio stream (when format=mp3): 24kHz sample rate, 96 kbps bitrate, 16-bit, mono