Utiliza los endpoints de voz de la API de MKA1 cuando necesites transcripción de voz a texto basada en archivos o conversión de texto a voz. Para sesiones de voz bidireccionales en tiempo real, usa el Modo de voz avanzado.Documentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
Elige el endpoint adecuado
| Caso de uso | Endpoint | Notas |
|---|---|---|
| Transcribir un archivo grabado | Transcripción de voz a texto | Sube audio con multipart/form-data |
| Generar un archivo WAV desde texto | Texto a voz | Mejor para generación de archivos completos |
| Iniciar la reproducción tan pronto como llegue el audio | Texto a voz en streaming | Mejor para reproducción de baja latencia |
Transcribir audio
Envía un archivo de audio al endpoint de transcripción cuando quieras obtener texto de un archivo grabado. Si tu aplicación actúa en nombre de un usuario final, también envíaX-On-Behalf-Of.
Formatos de audio soportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM, PCM.
Separar hablantes en una transcripción
Si necesitas diarización, habilita los datos de hablante en la solicitud de transcripción. Cuando está habilitado, la respuesta puede incluir un arreglospeakers con segmentos etiquetados por hablante y metadatos de tiempo.
text de nivel superior cuando necesites una transcripción unificada.
Usa speakers cuando necesites subtítulos, turnos de habla o análisis de hablantes posteriores.
Generar voz
Utiliza el endpoint estándar de texto a voz cuando quieras un archivo WAV completo. El cuerpo de la respuesta es audio binario y las cabeceras de la respuesta incluyenX-Language-Code.
Transmitir voz para menor latencia
Utiliza texto a voz en streaming cuando quieras que la reproducción comience antes de que el archivo de audio esté completo. Eligemp3 para cargas útiles más pequeñas o pcm para audio sin comprimir.
Próximos pasos
- Revisa la referencia de Transcripción de voz a texto para detalles de solicitud y respuesta
- Revisa la referencia de Texto a voz para generación de WAV
- Revisa la referencia de Texto a voz en streaming para salida de baja latencia
- Usa el Modo de voz avanzado para conversaciones en tiempo real