Python (SDK)

from meetkai_mka1 import SDK


with SDK(
    bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:

    res = sdk.llm.speech.transcribe(file={
        "file_name": "example.file",
        "content": open("example.file", "rb"),
    }, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2, store=True)

    # Handle response
    print(res)

import { SDK } from "@meetkai/mka1";
import { openAsBlob } from "node:fs";

const sdk = new SDK({
  bearerAuth: "<YOUR_BEARER_TOKEN_HERE>",
});

async function run() {
  const result = await sdk.llm.speech.transcribe({
    language: "en",
    includeSpeakerData: true,
    prompt: "This is a technical podcast about machine learning.",
    temperature: 0.2,
    store: true,
    requestBody: {
      file: await openAsBlob("example.file"),
    },
  });

  console.log(result);
}

run();

using MeetKai.MKA1;
using MeetKai.MKA1.Types.Components;
using MeetKai.MKA1.Types.Requests;

var sdk = new SDK(bearerAuth: "<YOUR_BEARER_TOKEN_HERE>");

TranscribeRequest req = new TranscribeRequest() {
    Language = "en",
    IncludeSpeakerData = true,
    Prompt = "This is a technical podcast about machine learning.",
    Temperature = 0.2D,
    Store = true,
    Body = new TranscribeRequestBody() {
        File = new TranscribeFile() {
            FileName = "example.file",
            Content = System.IO.File.ReadAllBytes("example.file"),
        },
    },
};

var res = await sdk.Llm.Speech.TranscribeAsync(req);

// handle response

curl --request POST \
  --url https://apigw.mka1.com/api/v1/llm/speech/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form file='@example-file'

const form = new FormData();
form.append('file', '(binary)');

const options = {method: 'POST', headers: {Authorization: 'Bearer <token>'}};

options.body = form;

fetch('https://apigw.mka1.com/api/v1/llm/speech/transcriptions', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://apigw.mka1.com/api/v1/llm/speech/transcriptions",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => "-----011000010111000001101001\r\nContent-Disposition: form-data; name=\"file\"; filename=\"example-file\"\r\nContent-Type: application/octet-stream\r\n\r\n(binary)\r\n-----011000010111000001101001--",
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: multipart/form-data; boundary=---011000010111000001101001"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://apigw.mka1.com/api/v1/llm/speech/transcriptions"

	payload := strings.NewReader("-----011000010111000001101001\r\nContent-Disposition: form-data; name=\"file\"; filename=\"example-file\"\r\nContent-Type: application/octet-stream\r\n\r\n(binary)\r\n-----011000010111000001101001--")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "multipart/form-data; boundary=---011000010111000001101001")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://apigw.mka1.com/api/v1/llm/speech/transcriptions")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "multipart/form-data; boundary=---011000010111000001101001")
  .body("-----011000010111000001101001\r\nContent-Disposition: form-data; name=\"file\"; filename=\"example-file\"\r\nContent-Type: application/octet-stream\r\n\r\n(binary)\r\n-----011000010111000001101001--")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://apigw.mka1.com/api/v1/llm/speech/transcriptions")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'multipart/form-data; boundary=---011000010111000001101001'
request.body = "-----011000010111000001101001\r\nContent-Disposition: form-data; name=\"file\"; filename=\"example-file\"\r\nContent-Type: application/octet-stream\r\n\r\n(binary)\r\n-----011000010111000001101001--"

response = http.request(request)
puts response.read_body

{
  "text": "Hello, this is a sample transcription of the audio file.",
  "language": "en",
  "confidence": 0.95,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Hello, this is a sample transcription of the audio file.",
      "confidence": 0.95,
      "offset_ms": 0,
      "duration_ms": 2100
    }
  ]
}

Speech

Transcrição de fala para texto

Converta áudio em texto usando reconhecimento de fala avançado.

Upload de Arquivo Completo (Padrão)
Use Content-Type: multipart/form-data para enviar o arquivo de áudio completo em uma única solicitação. Tamanho máximo do arquivo: 25MB.

Exemplo:

curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=pt-BR" \
  -F "file=@audio.flac"

Upload em Fragmentos (Streaming)
Use o cabeçalho Transfer-Encoding: chunked para transmitir dados de áudio em fragmentos enquanto estão sendo gravados. Não é necessário saber o tamanho total do arquivo com antecedência. O servidor armazena os fragmentos até que estejam completos antes de processar. Tamanho total máximo: 25MB.

Exemplo:

curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=pt-BR" \
  -H "Transfer-Encoding: chunked" \
  -H "Content-Type: multipart/form-data" \
  --data-binary @audio.flac

Formatos Suportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM

Parâmetros de Consulta:

model (opcional): Identificador do modelo de transcrição. Padrão é ‘auto’.
language (opcional): Código de idioma ISO-639-1 ou BCP-47 (por exemplo, “pt-BR”). Detecta automaticamente se não especificado.
prompt (opcional): Parâmetro de prompt legado mantido para compatibilidade retroativa.
temperature (opcional): Parâmetro de temperatura legado mantido para compatibilidade retroativa.
include_speaker_data (opcional): Quando true, inclui dados de diarização do orador e requer entrada WAV/PCM. Caso contrário, a transcrição utiliza o caminho de compatibilidade padrão.

Resposta: Retorna o texto transcrito em formato JSON.

POST

api

llm

speech

transcriptions

Python (SDK)

from meetkai_mka1 import SDK


with SDK(
    bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:

    res = sdk.llm.speech.transcribe(file={
        "file_name": "example.file",
        "content": open("example.file", "rb"),
    }, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2, store=True)

    # Handle response
    print(res)

import { SDK } from "@meetkai/mka1";
import { openAsBlob } from "node:fs";

const sdk = new SDK({
  bearerAuth: "<YOUR_BEARER_TOKEN_HERE>",
});

async function run() {
  const result = await sdk.llm.speech.transcribe({
    language: "en",
    includeSpeakerData: true,
    prompt: "This is a technical podcast about machine learning.",
    temperature: 0.2,
    store: true,
    requestBody: {
      file: await openAsBlob("example.file"),
    },
  });

  console.log(result);
}

run();

using MeetKai.MKA1;
using MeetKai.MKA1.Types.Components;
using MeetKai.MKA1.Types.Requests;

var sdk = new SDK(bearerAuth: "<YOUR_BEARER_TOKEN_HERE>");

TranscribeRequest req = new TranscribeRequest() {
    Language = "en",
    IncludeSpeakerData = true,
    Prompt = "This is a technical podcast about machine learning.",
    Temperature = 0.2D,
    Store = true,
    Body = new TranscribeRequestBody() {
        File = new TranscribeFile() {
            FileName = "example.file",
            Content = System.IO.File.ReadAllBytes("example.file"),
        },
    },
};

var res = await sdk.Llm.Speech.TranscribeAsync(req);

// handle response

curl --request POST \
  --url https://apigw.mka1.com/api/v1/llm/speech/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form file='@example-file'

const form = new FormData();
form.append('file', '(binary)');

const options = {method: 'POST', headers: {Authorization: 'Bearer <token>'}};

options.body = form;

fetch('https://apigw.mka1.com/api/v1/llm/speech/transcriptions', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://apigw.mka1.com/api/v1/llm/speech/transcriptions",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "POST",
  CURLOPT_POSTFIELDS => "-----011000010111000001101001\r\nContent-Disposition: form-data; name=\"file\"; filename=\"example-file\"\r\nContent-Type: application/octet-stream\r\n\r\n(binary)\r\n-----011000010111000001101001--",
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>",
    "Content-Type: multipart/form-data; boundary=---011000010111000001101001"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://apigw.mka1.com/api/v1/llm/speech/transcriptions"

	payload := strings.NewReader("-----011000010111000001101001\r\nContent-Disposition: form-data; name=\"file\"; filename=\"example-file\"\r\nContent-Type: application/octet-stream\r\n\r\n(binary)\r\n-----011000010111000001101001--")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "multipart/form-data; boundary=---011000010111000001101001")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://apigw.mka1.com/api/v1/llm/speech/transcriptions")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "multipart/form-data; boundary=---011000010111000001101001")
  .body("-----011000010111000001101001\r\nContent-Disposition: form-data; name=\"file\"; filename=\"example-file\"\r\nContent-Type: application/octet-stream\r\n\r\n(binary)\r\n-----011000010111000001101001--")
  .asString();

require 'uri'
require 'net/http'

url = URI("https://apigw.mka1.com/api/v1/llm/speech/transcriptions")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Post.new(url)
request["Authorization"] = 'Bearer <token>'
request["Content-Type"] = 'multipart/form-data; boundary=---011000010111000001101001'
request.body = "-----011000010111000001101001\r\nContent-Disposition: form-data; name=\"file\"; filename=\"example-file\"\r\nContent-Type: application/octet-stream\r\n\r\n(binary)\r\n-----011000010111000001101001--"

response = http.request(request)
puts response.read_body

{
  "text": "Hello, this is a sample transcription of the audio file.",
  "language": "en",
  "confidence": 0.95,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Hello, this is a sample transcription of the audio file.",
      "confidence": 0.95,
      "offset_ms": 0,
      "duration_ms": 2100
    }
  ]
}

Autorizações

Authorization

string

header

obrigatório

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Cabeçalhos

X-On-Behalf-Of

string

Optional external end-user identifier forwarded by the API gateway.

Parâmetros de consulta

model

string

padrão:auto

Identificador do modelo de transcrição. O padrão é 'auto', que seleciona o melhor modelo disponível. Ignorado quando a diarização de falantes é solicitada.

Exemplo:

"auto"

language

string

O idioma do áudio de entrada no formato ISO-639-1 ou BCP-47 (por exemplo, 'pt' ou 'pt-BR'). Se não for especificado, o serviço de transcrição detecta automaticamente o idioma.

Exemplo:

"en"

include_speaker_data

boolean

padrão:false

Se deve incluir dados de segmentos de falantes. O padrão é falso. Quando verdadeiro, a resposta inclui um array de falantes dividido por falante detectado.

Exemplo:

true

prompt

string

Parâmetro de prompt legado mantido para compatibilidade retroativa. Usado apenas pelo caminho de fallback para uploads que não são WAV.

Exemplo:

"This is a technical podcast about machine learning."

temperature

number

Parâmetro de temperatura legado mantido para compatibilidade com versões anteriores. Usado apenas pelo caminho de fallback para uploads não WAV.

Intervalo obrigatório: 0 <= x <= 1

Exemplo:

0.2

store

boolean

padrão:false

Quando verdadeiro, persista esta transcrição (o áudio de entrada e o texto transcrito) no histórico de conversão de fala para texto. O padrão é falso.

Exemplo:

true

Corpo

multipart/form-data

file

obrigatório

Arquivo de áudio para transcrição.

Requisitos do Arquivo:

Tamanho máximo: 25MB
Formatos suportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM
A diagramação de falantes atualmente requer entrada WAV / PCM

Opções de Upload:

Padrão: Carregar arquivo completo usando multipart/form-data
Em partes: Transmitir partes do arquivo usando o cabeçalho Transfer-Encoding: chunked (útil para gravação em tempo real)

Nota: Para uploads em partes, o servidor armazena em buffer todas as partes antes do processamento. A transcrição começa apenas após o recebimento do arquivo completo.

Resposta

200 - application/json

Resposta do endpoint de transcrição contendo o texto transcrito, idioma detectado, pontuação de confiança e segmentos de falantes opcionais.

text

string

obrigatório

O texto transcrito do arquivo de áudio

language

string

O código de idioma detectado ou especificado no formato ISO-639-1 (por exemplo, 'en', 'es', 'fr')

confidence

number

Pontuação de confiança de 0 a 1, onde 1 indica a maior confiança na precisão da transcrição.

speakers

object[]

Segmentos de diarização de falantes, retornados apenas quando include_speaker_data é verdadeiro.

Show child attributes

Listar habilidades pré-configuradas

Texto para fala

⌘I