Saltar al contenido principal
POST
/
api
/
v1
/
llm
/
speech
/
transcriptions
Python (SDK)
from openapi import SDK


with SDK(
    bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:

    res = sdk.llm.speech.transcribe(file={
        "file_name": "example.file",
        "content": open("example.file", "rb"),
    }, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2)

    # Handle response
    print(res)
{
  "text": "Hello, this is a sample transcription of the audio file.",
  "language": "en",
  "confidence": 0.95,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Hello, this is a sample transcription of the audio file.",
      "confidence": 0.95,
      "offset_ms": 0,
      "duration_ms": 2100
    }
  ]
}

Autorizaciones

Authorization
string
header
requerido

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Parámetros de consulta

model
string
predeterminado:auto

Identificador del modelo de transcripción. Por defecto, es 'auto', lo que selecciona el mejor modelo disponible. Se ignora cuando se solicita la diarización del hablante.

Ejemplo:

"auto"

language
string

El idioma del audio de entrada en formato ISO-639-1 o BCP-47 (por ejemplo, 'en' o 'en-US'). Si no se especifica, el servicio de transcripción detecta automáticamente el idioma.

Ejemplo:

"en"

include_speaker_data
boolean
predeterminado:false

¿Incluir datos de segmentos de oradores? Por defecto es falso. Cuando es verdadero, la respuesta incluye un array de oradores dividido por el orador detectado.

Ejemplo:

true

prompt
string

Parámetro de aviso heredado mantenido por compatibilidad hacia atrás. Usado solo por la ruta de respaldo para cargas que no son WAV.

Ejemplo:

"This is a technical podcast about machine learning."

temperature
number

Parámetro de temperatura heredado mantenido por compatibilidad hacia atrás. Utilizado solo por la ruta de respaldo para cargas no WAV.

Rango requerido: 0 <= x <= 1
Ejemplo:

0.2

Cuerpo

multipart/form-data
file
file
requerido

Archivo de audio para transcribir.

Requisitos del archivo:

  • Tamaño máximo: 25MB
  • Formatos admitidos: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM
  • La diarización de hablantes actualmente requiere entrada WAV / PCM

Opciones de carga:

  1. Estándar: Cargar el archivo completo usando multipart/form-data
  2. Por fragmentos: Transmitir fragmentos del archivo usando el encabezado Transfer-Encoding: chunked (útil para grabación en tiempo real)

Nota: Para cargas por fragmentos, el servidor almacena en búfer todos los fragmentos antes de procesarlos. La transcripción comienza solo después de haber recibido el archivo completo.

Respuesta

200 - application/json

Está bien

Respuesta del punto final de transcripción que contiene el texto transcrito, el idioma detectado, la puntuación de confianza y segmentos de hablantes opcionales.

text
string
requerido

El texto transcrito del archivo de audio

language
string

El código de idioma detectado o especificado en formato ISO-639-1 (por ejemplo, 'en', 'es', 'fr')

confidence
number

Puntuación de confianza de 0 a 1 donde 1 indica la mayor confianza en la precisión de la transcripción.

speakers
object[]

Los segmentos de diarización de hablantes, devueltos solo cuando include_speaker_data es verdadero.