Pular para o conteúdo principal

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

Use os endpoints de fala da API MKA1 quando precisar de conversão de fala para texto ou texto para fala baseada em arquivos. Para sessões de voz bidirecionais em tempo real, use o Modo de voz avançado.

Escolha o endpoint correto

Caso de usoEndpointObservações
Transcrever um arquivo gravadoTranscrição de fala para textoFaça upload do áudio com multipart/form-data
Gerar um arquivo WAV a partir de textoTexto para falaMelhor para geração de arquivo completo
Iniciar reprodução assim que o áudio chegarTexto para fala em streamingMelhor para reprodução de baixa latência

Transcrever áudio

Envie um arquivo de áudio para o endpoint de transcrição quando quiser obter texto a partir de um arquivo gravado. Se seu aplicativo atua em nome de um usuário final, envie também o cabeçalho X-On-Behalf-Of. Formatos de áudio suportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM, PCM.
mka1 llm speech transcribe \
  --file ./episode.wav \
  --language en \
  --prompt 'This is a technical podcast about machine learning.' \
  --temperature 0.2 \
  -H 'X-On-Behalf-Of: <end-user-id>'
A resposta inclui o texto transcrito, além do idioma detectado e confiança:
{
  "text": "Hello! We're excited to show you our native speech capabilities.",
  "language": "en",
  "confidence": 0.8429018476208717
}

Separar falantes em uma transcrição

Se você precisa de diarização, ative os dados de locutor na requisição de transcrição. Quando ativado, a resposta pode incluir um array speakers com segmentos rotulados por locutor e metadados de tempo.
Para include_speaker_data, envie áudio WAV ou PCM para transcrição não em streaming. Outros formatos de áudio retornam 400 BAD_REQUEST com a mensagem Speaker diarization currently requires WAV/PCM audio for non-streaming transcription.
const result = await mka1.llm.speech.transcribe({
  language: 'en',
  includeSpeakerData: true,
  prompt: 'This is a short podcast clip about AI product updates.',
  temperature: 0.2,
  requestBody: {
    file: await openAsBlob('panel.wav'),
  },
}, { headers: { 'X-On-Behalf-Of': '<end-user-id>' } });

console.log(result.speakers);
Exemplo de resposta com separação de falantes:
{
  "text": "Welcome back to the show. Today we're looking at how speech APIs fit into production apps. We'll keep it practical and focus on latency, accuracy, and speaker turns.",
  "language": "en",
  "confidence": 0.91177404,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Welcome back to the show.",
      "confidence": 0.91177404,
      "offset_ms": 80,
      "duration_ms": 1280
    },
    {
      "speaker": "Speaker-2",
      "text": "Today we're looking at how speech APIs fit into production apps.",
      "confidence": 0.91177404,
      "offset_ms": 1540,
      "duration_ms": 3380
    },
    {
      "speaker": "Speaker-1",
      "text": "We'll keep it practical and focus on latency, accuracy, and speaker turns.",
      "confidence": 0.91177404,
      "offset_ms": 5220,
      "duration_ms": 3660
    }
  ]
}
Use o campo text de nível superior quando precisar de uma transcrição única e mesclada. Use speakers quando precisar de legendas, alternância de turnos ou análises de falantes posteriores.

Gerar fala

Use o endpoint padrão de texto para fala quando quiser um arquivo WAV completo. O corpo da resposta é áudio binário, e os cabeçalhos da resposta incluem X-Language-Code.
mka1 llm speech speak \
  --text 'Welcome to the MKA1 API speech guide.' \
  --language en \
  --output-file speech.wav

Transmitir fala para menor latência

Use texto para fala em streaming quando quiser que a reprodução comece antes que o arquivo de áudio completo esteja pronto. Escolha mp3 para cargas menores ou pcm para áudio não compactado.
mka1 llm speech speak-streaming \
  --text 'Start speaking this response as soon as audio is ready.' \
  --language en \
  --format-param mp3 \
  --output-file speech.mp3

Próximos passos