Transcripción de voz a texto
Convierte audio a texto utilizando reconocimiento de voz avanzado.
Carga de Archivo Completo (Estándar)
Utiliza Content-Type: multipart/form-data para cargar el archivo de audio completo en una sola solicitud. Tamaño máximo del archivo: 25MB.
Ejemplo:
curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=es" \
-F "file=@audio.flac"
Carga en Fragmentos (Streaming)
Utiliza el encabezado Transfer-Encoding: chunked para transmitir datos de audio en fragmentos a medida que se graban. No es necesario conocer el tamaño total del archivo por adelantado. El servidor almacena los fragmentos hasta que se completan antes de procesarlos. Tamaño total máximo: 25MB.
Ejemplo:
curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=es" \
-H "Transfer-Encoding: chunked" \
-H "Content-Type: multipart/form-data" \
--data-binary @audio.flac
Formatos Soportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM
Parámetros de Consulta:
model(opcional): Identificador del modelo de transcripción. Por defecto es ‘auto’.language(opcional): Código de idioma ISO-639-1 o BCP-47 (por ejemplo, “es”, “es-ES”). Se detecta automáticamente si no se especifica.prompt(opcional): Parámetro de solicitud heredado mantenido por compatibilidad hacia atrás.temperature(opcional): Parámetro de temperatura heredado mantenido por compatibilidad hacia atrás.include_speaker_data(opcional): Cuando estrue, incluye datos de diarización de hablantes y requiere entrada WAV/PCM. De lo contrario, la transcripción utiliza la ruta de compatibilidad estándar.
Respuesta: Devuelve el texto transcrito en formato JSON.
Documentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
Autorizaciones
Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Encabezados
Optional external end-user identifier forwarded by the API gateway.
Parámetros de consulta
Identificador del modelo de transcripción. Por defecto es 'auto', que selecciona el mejor modelo disponible. Se ignora cuando se solicita la diarización de hablantes.
"auto"
El idioma del audio de entrada en formato ISO-639-1 o BCP-47 (por ejemplo, 'en' o 'en-US'). Si no se especifica, el servicio de transcripción detecta automáticamente el idioma.
"en"
Si incluir datos de segmentos de oradores. Por defecto es falso. Cuando es verdadero, la respuesta incluye una matriz de oradores dividida por orador detectado.
true
Parámetro de solicitud legado mantenido para compatibilidad hacia atrás. Usado solo por la ruta de respaldo para cargas que no son WAV.
"This is a technical podcast about machine learning."
Parámetro de temperatura heredado mantenido por compatibilidad hacia atrás. Utilizado solo por la ruta de retroceso para cargas que no son WAV.
0 <= x <= 10.2
Cuerpo
Archivo de audio para transcribir.
Requisitos del archivo:
- Tamaño máximo: 25MB
- Formatos soportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM
- La diarización de hablantes actualmente requiere entrada en WAV / PCM
Opciones de carga:
- Estándar: Cargar el archivo completo usando multipart/form-data
- En trozos: Transmitir fragmentos del archivo usando el encabezado Transfer-Encoding: chunked (útil para grabación en tiempo real)
Nota: Para cargas en trozos, el servidor almacena en búfer todos los fragmentos antes de procesarlos. La transcripción comienza solo después de recibir el archivo completo.
Respuesta
Está bien
Respuesta del punto final de transcripción que contiene el texto transcrito, el idioma detectado, la puntuación de confianza y segmentos de hablante opcionales.
El texto transcrito del archivo de audio
El código de idioma detectado o especificado en formato ISO-639-1 (por ejemplo, 'en', 'es', 'fr')
Puntuación de confianza de 0 a 1 donde 1 indica la mayor confianza en la precisión de la transcripción.
Segmentos de diarización de hablantes, devueltos solo cuando include_speaker_data es verdadero.