from openapi import SDK
with SDK(
bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:
res = sdk.llm.speech.transcribe(file={
"file_name": "example.file",
"content": open("example.file", "rb"),
}, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2)
# Handle response
print(res){
"text": "Hello, this is a sample transcription of the audio file.",
"language": "en",
"confidence": 0.95,
"speakers": [
{
"speaker": "Speaker-1",
"text": "Hello, this is a sample transcription of the audio file.",
"confidence": 0.95,
"offset_ms": 0,
"duration_ms": 2100
}
]
}Converta áudio em texto usando reconhecimento de fala avançado.
Envio de Arquivo Completo (Padrão)
Use Content-Type: multipart/form-data para enviar o arquivo de áudio completo em uma única solicitação. Tamanho máximo do arquivo: 25MB.
Exemplo:
curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=pt-BR" \
-F "file=@audio.flac"
Envio em Partes (Streaming)
Use o cabeçalho Transfer-Encoding: chunked para transmitir dados de áudio em partes enquanto estão sendo gravados. Não é necessário saber o tamanho total do arquivo com antecedência. O servidor armazena os pedaços até que estejam completos antes de processar. Tamanho total máximo: 25MB.
Exemplo:
curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=pt-BR" \
-H "Transfer-Encoding: chunked" \
-H "Content-Type: multipart/form-data" \
--data-binary @audio.flac
Formatos Suportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM
Parâmetros da Consulta:
model (opcional): Identificador do modelo de transcrição. O padrão é ‘auto’.language (opcional): Código de idioma ISO-639-1 ou BCP-47 (por exemplo, “pt-BR”). Detecta automaticamente se não especificado.prompt (opcional): Parâmetro de prompt legado mantido para compatibilidade.temperature (opcional): Parâmetro de temperatura legado mantido para compatibilidade.include_speaker_data (opcional): Quando true, inclui dados de diarização do falante e requer entrada WAV/PCM. Caso contrário, a transcrição usa o caminho de compatibilidade padrão.Resposta: Retorna texto transcrito em formato JSON.
from openapi import SDK
with SDK(
bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:
res = sdk.llm.speech.transcribe(file={
"file_name": "example.file",
"content": open("example.file", "rb"),
}, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2)
# Handle response
print(res){
"text": "Hello, this is a sample transcription of the audio file.",
"language": "en",
"confidence": 0.95,
"speakers": [
{
"speaker": "Speaker-1",
"text": "Hello, this is a sample transcription of the audio file.",
"confidence": 0.95,
"offset_ms": 0,
"duration_ms": 2100
}
]
}Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Identificador do modelo de transcrição. O padrão é 'auto', que seleciona o melhor modelo disponível. Ignorado quando a diarização de falantes é solicitada.
"auto"
O idioma do áudio de entrada no formato ISO-639-1 ou BCP-47 (por exemplo, 'en' ou 'en-US'). Se não especificado, o serviço de transcrição detecta automaticamente o idioma.
"en"
Se deve incluir dados de segmentos de falantes. O padrão é falso. Quando verdadeiro, a resposta inclui um array de falantes dividido por falante detectado.
true
Parâmetro de prompt legado mantido para compatibilidade retroativa. Usado apenas pelo caminho de fallback para uploads que não sejam em WAV.
"This is a technical podcast about machine learning."
Parâmetro de temperatura legado mantido para compatibilidade retroativa. Usado apenas pelo caminho de fallback para uploads que não são WAV.
0 <= x <= 10.2
Arquivo de áudio para transcrever.
Requisitos do Arquivo:
Opções de Upload:
Nota: Para uploads em pedaços, o servidor armazena todos os pedaços antes do processamento. A transcrição começa somente após o recebimento do arquivo completo.
OK
Resposta do endpoint de transcrição contendo o texto transcrito, idioma detectado, pontuação de confiança e segmentos de falante opcionais.
O texto transcrito do arquivo de áudio
O código de idioma detectado ou especificado no formato ISO-639-1 (por exemplo, 'en', 'es', 'fr')
Pontuação de confiança de 0 a 1, onde 1 indica a maior confiança na precisão da transcrição.
Segmentos de diarização de falantes, retornados apenas quando include_speaker_data é verdadeiro.
Show child attributes
Esta página foi útil?