Python (SDK)

from mka1 import SDK


with SDK(
    bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:

    res = sdk.llm.speech.transcribe(file={
        "file_name": "example.file",
        "content": open("example.file", "rb"),
    }, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2)

    # Handle response
    print(res)

{
  "text": "Hello, this is a sample transcription of the audio file.",
  "language": "en",
  "confidence": 0.95,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Hello, this is a sample transcription of the audio file.",
      "confidence": 0.95,
      "offset_ms": 0,
      "duration_ms": 2100
    }
  ]
}

Speech

Transcripción de voz a texto

Convierte audio a texto utilizando reconocimiento de voz avanzado.

Carga de Archivo Completo (Estándar) Utiliza Content-Type: multipart/form-data para cargar el archivo de audio completo en una sola solicitud. Tamaño máximo del archivo: 25MB.

Ejemplo:

curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=es" \
  -F "file=@audio.flac"

Carga en Fragmentos (Streaming) Utiliza el encabezado Transfer-Encoding: chunked para transmitir datos de audio en fragmentos a medida que se graban. No es necesario conocer el tamaño total del archivo por adelantado. El servidor almacena los fragmentos hasta que se completan antes de procesarlos. Tamaño total máximo: 25MB.

Ejemplo:

curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=es" \
  -H "Transfer-Encoding: chunked" \
  -H "Content-Type: multipart/form-data" \
  --data-binary @audio.flac

Formatos Soportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM

Parámetros de Consulta:

model (opcional): Identificador del modelo de transcripción. Por defecto es ‘auto’.
language (opcional): Código de idioma ISO-639-1 o BCP-47 (por ejemplo, “es”, “es-ES”). Se detecta automáticamente si no se especifica.
prompt (opcional): Parámetro de solicitud heredado mantenido por compatibilidad hacia atrás.
temperature (opcional): Parámetro de temperatura heredado mantenido por compatibilidad hacia atrás.
include_speaker_data (opcional): Cuando es true, incluye datos de diarización de hablantes y requiere entrada WAV/PCM. De lo contrario, la transcripción utiliza la ruta de compatibilidad estándar.

Respuesta: Devuelve el texto transcrito en formato JSON.

POST

api

llm

speech

transcriptions

Python (SDK)

from mka1 import SDK


with SDK(
    bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:

    res = sdk.llm.speech.transcribe(file={
        "file_name": "example.file",
        "content": open("example.file", "rb"),
    }, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2)

    # Handle response
    print(res)

{
  "text": "Hello, this is a sample transcription of the audio file.",
  "language": "en",
  "confidence": 0.95,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Hello, this is a sample transcription of the audio file.",
      "confidence": 0.95,
      "offset_ms": 0,
      "duration_ms": 2100
    }
  ]
}

Autorizaciones

Authorization

string

header

requerido

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Encabezados

X-On-Behalf-Of

string

Optional external end-user identifier forwarded by the API gateway.

Parámetros de consulta

model

string

predeterminado:auto

Identificador del modelo de transcripción. Por defecto es 'auto', que selecciona el mejor modelo disponible. Se ignora cuando se solicita la diarización de hablantes.

Ejemplo:

"auto"

language

string

El idioma del audio de entrada en formato ISO-639-1 o BCP-47 (por ejemplo, 'en' o 'en-US'). Si no se especifica, el servicio de transcripción detecta automáticamente el idioma.

Ejemplo:

"en"

include_speaker_data

boolean

predeterminado:false

Si incluir datos de segmentos de oradores. Por defecto es falso. Cuando es verdadero, la respuesta incluye una matriz de oradores dividida por orador detectado.

Ejemplo:

true

prompt

string

Parámetro de solicitud legado mantenido para compatibilidad hacia atrás. Usado solo por la ruta de respaldo para cargas que no son WAV.

Ejemplo:

"This is a technical podcast about machine learning."

temperature

number

Parámetro de temperatura heredado mantenido por compatibilidad hacia atrás. Utilizado solo por la ruta de retroceso para cargas que no son WAV.

Rango requerido: 0 <= x <= 1

Ejemplo:

0.2

Cuerpo

multipart/form-data

file

requerido

Archivo de audio para transcribir.

Requisitos del archivo:

Tamaño máximo: 25MB
Formatos soportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM
La diarización de hablantes actualmente requiere entrada en WAV / PCM

Opciones de carga:

Estándar: Cargar el archivo completo usando multipart/form-data
En trozos: Transmitir fragmentos del archivo usando el encabezado Transfer-Encoding: chunked (útil para grabación en tiempo real)

Nota: Para cargas en trozos, el servidor almacena en búfer todos los fragmentos antes de procesarlos. La transcripción comienza solo después de recibir el archivo completo.

Respuesta

200 - application/json

Está bien

Respuesta del punto final de transcripción que contiene el texto transcrito, el idioma detectado, la puntuación de confianza y segmentos de hablante opcionales.

text

string

requerido

El texto transcrito del archivo de audio

language

string

El código de idioma detectado o especificado en formato ISO-639-1 (por ejemplo, 'en', 'es', 'fr')

confidence

number

Puntuación de confianza de 0 a 1 donde 1 indica la mayor confianza en la precisión de la transcripción.

speakers

object[]

Segmentos de diarización de hablantes, devueltos solo cuando include_speaker_data es verdadero.

Show child attributes

Lista de habilidades preconfiguradas

Texto a voz

⌘I

Documentation Index

Autorizaciones

Encabezados

Parámetros de consulta

Cuerpo

Respuesta