Pular para o conteúdo principal
POST
/
api
/
v1
/
llm
/
speech
/
transcriptions
Python (SDK)
from openapi import SDK


with SDK(
    bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:

    res = sdk.llm.speech.transcribe(file={
        "file_name": "example.file",
        "content": open("example.file", "rb"),
    }, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2)

    # Handle response
    print(res)
{
  "text": "Hello, this is a sample transcription of the audio file.",
  "language": "en",
  "confidence": 0.95,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Hello, this is a sample transcription of the audio file.",
      "confidence": 0.95,
      "offset_ms": 0,
      "duration_ms": 2100
    }
  ]
}

Autorizações

Authorization
string
header
obrigatório

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Parâmetros de consulta

model
string
padrão:auto

Identificador do modelo de transcrição. O padrão é 'auto', que seleciona o melhor modelo disponível. Ignorado quando a diarização de falantes é solicitada.

Exemplo:

"auto"

language
string

O idioma do áudio de entrada no formato ISO-639-1 ou BCP-47 (por exemplo, 'en' ou 'en-US'). Se não especificado, o serviço de transcrição detecta automaticamente o idioma.

Exemplo:

"en"

include_speaker_data
boolean
padrão:false

Se deve incluir dados de segmentos de falantes. O padrão é falso. Quando verdadeiro, a resposta inclui um array de falantes dividido por falante detectado.

Exemplo:

true

prompt
string

Parâmetro de prompt legado mantido para compatibilidade retroativa. Usado apenas pelo caminho de fallback para uploads que não sejam em WAV.

Exemplo:

"This is a technical podcast about machine learning."

temperature
number

Parâmetro de temperatura legado mantido para compatibilidade retroativa. Usado apenas pelo caminho de fallback para uploads que não são WAV.

Intervalo obrigatório: 0 <= x <= 1
Exemplo:

0.2

Corpo

multipart/form-data
file
file
obrigatório

Arquivo de áudio para transcrever.

Requisitos do Arquivo:

  • Tamanho máximo: 25MB
  • Formatos suportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM
  • A diarização do locutor atualmente requer entrada WAV / PCM

Opções de Upload:

  1. Padrão: Enviar arquivo completo usando multipart/form-data
  2. Em pedaços: Transmitir partes do arquivo usando o cabeçalho Transfer-Encoding: chunked (útil para gravação em tempo real)

Nota: Para uploads em pedaços, o servidor armazena todos os pedaços antes do processamento. A transcrição começa somente após o recebimento do arquivo completo.

Resposta

200 - application/json

OK

Resposta do endpoint de transcrição contendo o texto transcrito, idioma detectado, pontuação de confiança e segmentos de falante opcionais.

text
string
obrigatório

O texto transcrito do arquivo de áudio

language
string

O código de idioma detectado ou especificado no formato ISO-639-1 (por exemplo, 'en', 'es', 'fr')

confidence
number

Pontuação de confiança de 0 a 1, onde 1 indica a maior confiança na precisão da transcrição.

speakers
object[]

Segmentos de diarização de falantes, retornados apenas quando include_speaker_data é verdadeiro.