Use os endpoints de fala da API MKA1 quando precisar de conversão de fala para texto ou texto para fala baseada em arquivos. Para sessões de voz bidirecionais em tempo real, use o Modo de voz avançado.Documentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
Escolha o endpoint correto
| Caso de uso | Endpoint | Observações |
|---|---|---|
| Transcrever um arquivo gravado | Transcrição de fala para texto | Faça upload do áudio com multipart/form-data |
| Gerar um arquivo WAV a partir de texto | Texto para fala | Melhor para geração de arquivo completo |
| Iniciar reprodução assim que o áudio chegar | Texto para fala em streaming | Melhor para reprodução de baixa latência |
Transcrever áudio
Envie um arquivo de áudio para o endpoint de transcrição quando quiser obter texto a partir de um arquivo gravado. Se seu aplicativo atua em nome de um usuário final, envie também o cabeçalhoX-On-Behalf-Of.
Formatos de áudio suportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM, PCM.
Separar falantes em uma transcrição
Se você precisa de diarização, ative os dados de locutor na requisição de transcrição. Quando ativado, a resposta pode incluir um arrayspeakers com segmentos rotulados por locutor e metadados de tempo.
text de nível superior quando precisar de uma transcrição única e mesclada.
Use speakers quando precisar de legendas, alternância de turnos ou análises de falantes posteriores.
Gerar fala
Use o endpoint padrão de texto para fala quando quiser um arquivo WAV completo. O corpo da resposta é áudio binário, e os cabeçalhos da resposta incluemX-Language-Code.
Transmitir fala para menor latência
Use texto para fala em streaming quando quiser que a reprodução comece antes que o arquivo de áudio completo esteja pronto. Escolhamp3 para cargas menores ou pcm para áudio não compactado.
Próximos passos
- Revise a referência de Transcrição de fala para texto para detalhes de requisição e resposta
- Revise a referência de Texto para fala para geração de WAV
- Revise a referência de Texto para fala em streaming para saída de baixa latência
- Use o Modo de voz avançado para conversas em tempo real