Saltar al contenido principal
POST
/
api
/
v1
/
llm
/
speech
/
transcriptions
Python (SDK)
from mka1 import SDK


with SDK(
    bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:

    res = sdk.llm.speech.transcribe(file={
        "file_name": "example.file",
        "content": open("example.file", "rb"),
    }, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2)

    # Handle response
    print(res)
{
  "text": "Hello, this is a sample transcription of the audio file.",
  "language": "en",
  "confidence": 0.95,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Hello, this is a sample transcription of the audio file.",
      "confidence": 0.95,
      "offset_ms": 0,
      "duration_ms": 2100
    }
  ]
}

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

Autorizaciones

Authorization
string
header
requerido

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Encabezados

X-On-Behalf-Of
string

Optional external end-user identifier forwarded by the API gateway.

Parámetros de consulta

model
string
predeterminado:auto

Identificador del modelo de transcripción. Por defecto es 'auto', que selecciona el mejor modelo disponible. Se ignora cuando se solicita la diarización de hablantes.

Ejemplo:

"auto"

language
string

El idioma del audio de entrada en formato ISO-639-1 o BCP-47 (por ejemplo, 'en' o 'en-US'). Si no se especifica, el servicio de transcripción detecta automáticamente el idioma.

Ejemplo:

"en"

include_speaker_data
boolean
predeterminado:false

Si incluir datos de segmentos de oradores. Por defecto es falso. Cuando es verdadero, la respuesta incluye una matriz de oradores dividida por orador detectado.

Ejemplo:

true

prompt
string

Parámetro de solicitud legado mantenido para compatibilidad hacia atrás. Usado solo por la ruta de respaldo para cargas que no son WAV.

Ejemplo:

"This is a technical podcast about machine learning."

temperature
number

Parámetro de temperatura heredado mantenido por compatibilidad hacia atrás. Utilizado solo por la ruta de retroceso para cargas que no son WAV.

Rango requerido: 0 <= x <= 1
Ejemplo:

0.2

Cuerpo

multipart/form-data
file
file
requerido

Archivo de audio para transcribir.

Requisitos del archivo:

  • Tamaño máximo: 25MB
  • Formatos soportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM
  • La diarización de hablantes actualmente requiere entrada en WAV / PCM

Opciones de carga:

  1. Estándar: Cargar el archivo completo usando multipart/form-data
  2. En trozos: Transmitir fragmentos del archivo usando el encabezado Transfer-Encoding: chunked (útil para grabación en tiempo real)

Nota: Para cargas en trozos, el servidor almacena en búfer todos los fragmentos antes de procesarlos. La transcripción comienza solo después de recibir el archivo completo.

Respuesta

200 - application/json

Está bien

Respuesta del punto final de transcripción que contiene el texto transcrito, el idioma detectado, la puntuación de confianza y segmentos de hablante opcionales.

text
string
requerido

El texto transcrito del archivo de audio

language
string

El código de idioma detectado o especificado en formato ISO-639-1 (por ejemplo, 'en', 'es', 'fr')

confidence
number

Puntuación de confianza de 0 a 1 donde 1 indica la mayor confianza en la precisión de la transcripción.

speakers
object[]

Segmentos de diarización de hablantes, devueltos solo cuando include_speaker_data es verdadero.