Escolha o endpoint correto
| Caso de uso | Endpoint | Observações |
|---|---|---|
| Transcrever um arquivo gravado | Transcrição de fala para texto | Faça upload do áudio com multipart/form-data |
| Gerar um arquivo WAV a partir de texto | Texto para fala | Melhor para geração de arquivo completo |
| Iniciar reprodução assim que o áudio chegar | Texto para fala em streaming | Melhor para reprodução de baixa latência |
Transcrever áudio
Envie um arquivo de áudio para o endpoint de transcrição quando quiser obter texto a partir de um arquivo gravado. Se seu aplicativo atua em nome de um usuário final, envie também o cabeçalhoX-On-Behalf-Of.
Formatos de áudio suportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM, PCM.
Separar falantes em uma transcrição
Se você precisa de diarização, ative os dados de locutor na requisição de transcrição. Quando ativado, a resposta pode incluir um arrayspeakers com segmentos rotulados por locutor e metadados de tempo.
text de nível superior quando precisar de uma transcrição única e mesclada.
Use speakers quando precisar de legendas, alternância de turnos ou análises de falantes posteriores.
Gerar fala
Use o endpoint padrão de texto para fala quando quiser um arquivo WAV completo. O corpo da resposta é áudio binário, e os cabeçalhos da resposta incluemX-Language-Code.
Transmitir fala para menor latência
Use texto para fala em streaming quando quiser que a reprodução comece antes que o arquivo de áudio completo esteja pronto. Escolhamp3 para cargas menores ou pcm para áudio não compactado.
Próximos passos
- Revise a referência de Transcrição de fala para texto para detalhes de requisição e resposta
- Revise a referência de Texto para fala para geração de WAV
- Revise a referência de Texto para fala em streaming para saída de baixa latência
- Use o Modo de voz avançado para conversas em tempo real