Fala

Use os endpoints de fala da API MKA1 quando precisar de conversão de fala para texto ou texto para fala baseada em arquivos. Para sessões de voz bidirecionais em tempo real, use o Modo de voz avançado.

Escolha o endpoint correto

Caso de uso	Endpoint	Observações
Transcrever um arquivo gravado	Transcrição de fala para texto	Faça upload do áudio com `multipart/form-data`
Gerar um arquivo WAV a partir de texto	Texto para fala	Melhor para geração de arquivo completo
Iniciar reprodução assim que o áudio chegar	Texto para fala em streaming	Melhor para reprodução de baixa latência

Transcrever áudio

Envie um arquivo de áudio para o endpoint de transcrição quando quiser obter texto a partir de um arquivo gravado. Se seu aplicativo atua em nome de um usuário final, envie também o cabeçalho X-On-Behalf-Of. Formatos de áudio suportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM, PCM.

mka1 llm speech transcribe \
  --file ./episode.wav \
  --language en \
  --prompt 'This is a technical podcast about machine learning.' \
  --temperature 0.2 \
  -H 'X-On-Behalf-Of: <end-user-id>'

A resposta inclui o texto transcrito, além do idioma detectado e confiança:

{
  "text": "Hello! We're excited to show you our native speech capabilities.",
  "language": "en",
  "confidence": 0.8429018476208717
}

Separar falantes em uma transcrição

Se você precisa de diarização, ative os dados de locutor na requisição de transcrição. Quando ativado, a resposta pode incluir um array speakers com segmentos rotulados por locutor e metadados de tempo.

Para include_speaker_data, envie áudio WAV ou PCM para transcrição não em streaming. Outros formatos de áudio retornam 400 BAD_REQUEST com a mensagem Speaker diarization currently requires WAV/PCM audio for non-streaming transcription.

const result = await mka1.llm.speech.transcribe({
  language: 'en',
  includeSpeakerData: true,
  prompt: 'This is a short podcast clip about AI product updates.',
  temperature: 0.2,
  requestBody: {
    file: await openAsBlob('panel.wav'),
  },
}, { headers: { 'X-On-Behalf-Of': '<end-user-id>' } });

console.log(result.speakers);

Exemplo de resposta com separação de falantes:

{
  "text": "Welcome back to the show. Today we're looking at how speech APIs fit into production apps. We'll keep it practical and focus on latency, accuracy, and speaker turns.",
  "language": "en",
  "confidence": 0.91177404,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Welcome back to the show.",
      "confidence": 0.91177404,
      "offset_ms": 80,
      "duration_ms": 1280
    },
    {
      "speaker": "Speaker-2",
      "text": "Today we're looking at how speech APIs fit into production apps.",
      "confidence": 0.91177404,
      "offset_ms": 1540,
      "duration_ms": 3380
    },
    {
      "speaker": "Speaker-1",
      "text": "We'll keep it practical and focus on latency, accuracy, and speaker turns.",
      "confidence": 0.91177404,
      "offset_ms": 5220,
      "duration_ms": 3660
    }
  ]
}

Use o campo text de nível superior quando precisar de uma transcrição única e mesclada. Use speakers quando precisar de legendas, alternância de turnos ou análises de falantes posteriores.

Gerar fala

Use o endpoint padrão de texto para fala quando quiser um arquivo WAV completo. O corpo da resposta é áudio binário, e os cabeçalhos da resposta incluem X-Language-Code.

mka1 llm speech speak \
  --text 'Welcome to the MKA1 API speech guide.' \
  --language en \
  --output-file speech.wav

Transmitir fala para menor latência

Use texto para fala em streaming quando quiser que a reprodução comece antes que o arquivo de áudio completo esteja pronto. Escolha mp3 para cargas menores ou pcm para áudio não compactado.

mka1 llm speech speak-streaming \
  --text 'Start speaking this response as soon as audio is ready.' \
  --language en \
  --format-param mp3 \
  --output-file speech.mp3

Próximos passos

Revise a referência de Transcrição de fala para texto para detalhes de requisição e resposta
Revise a referência de Texto para fala para geração de WAV
Revise a referência de Texto para fala em streaming para saída de baixa latência
Use o Modo de voz avançado para conversas em tempo real

Primeiros passos

Respostas

Recursos

CLI

Receitas

Benchmarks

Infraestrutura

Escolha o endpoint correto

Transcrever áudio

Separar falantes em uma transcrição

Gerar fala

Transmitir fala para menor latência

Próximos passos

Primeiros passos

Respostas

Recursos

CLI

Receitas

Benchmarks

Infraestrutura

Documentation Index

​Escolha o endpoint correto

​Transcrever áudio

​Separar falantes em uma transcrição

​Gerar fala

​Transmitir fala para menor latência

​Próximos passos

Escolha o endpoint correto

Transcrever áudio

Separar falantes em uma transcrição

Gerar fala

Transmitir fala para menor latência

Próximos passos