from openapi import SDK
with SDK(
bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:
res = sdk.llm.speech.transcribe(file={
"file_name": "example.file",
"content": open("example.file", "rb"),
}, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2)
# Handle response
print(res){
"text": "Hello, this is a sample transcription of the audio file.",
"language": "en",
"confidence": 0.95,
"speakers": [
{
"speaker": "Speaker-1",
"text": "Hello, this is a sample transcription of the audio file.",
"confidence": 0.95,
"offset_ms": 0,
"duration_ms": 2100
}
]
}Convierte audio a texto utilizando un reconocimiento de voz avanzado.
Carga de Archivo Completo (Estándar)
Utiliza Content-Type: multipart/form-data para cargar el archivo de audio completo en una solicitud. Tamaño máximo del archivo: 25MB.
Ejemplo:
curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=es" \
-F "file=@audio.flac"
Carga en Fragmentos (Transmisión)
Utiliza el encabezado Transfer-Encoding: chunked para transmitir datos de audio en fragmentos mientras se están grabando. No es necesario conocer el tamaño total del archivo de antemano. El servidor almacena en búfer los fragmentos hasta que esté completo antes de procesar. Tamaño total máximo: 25MB.
Ejemplo:
curl -X POST "http://localhost:3000/api/v1/llm/speech/transcriptions?language=es" \
-H "Transfer-Encoding: chunked" \
-H "Content-Type: multipart/form-data" \
--data-binary @audio.flac
Formatos Soportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM
Parámetros de Consulta:
model (opcional): Identificador del modelo de transcripción. Por defecto es ‘auto’.language (opcional): Código de idioma ISO-639-1 o BCP-47 (por ejemplo, “es”, “es-ES”). Se detecta automáticamente si no se especifica.prompt (opcional): Parámetro de aviso legado mantenido por compatibilidad.temperature (opcional): Parámetro de temperatura legado mantenido por compatibilidad.include_speaker_data (opcional): Cuando true, incluye datos de diarización de hablantes y requiere entrada WAV/PCM. De lo contrario, la transcripción utiliza la ruta de compatibilidad estándar.Respuesta: Devuelve texto transcrito en formato JSON.
from openapi import SDK
with SDK(
bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:
res = sdk.llm.speech.transcribe(file={
"file_name": "example.file",
"content": open("example.file", "rb"),
}, model="auto", language="en", include_speaker_data=True, prompt="This is a technical podcast about machine learning.", temperature=0.2)
# Handle response
print(res){
"text": "Hello, this is a sample transcription of the audio file.",
"language": "en",
"confidence": 0.95,
"speakers": [
{
"speaker": "Speaker-1",
"text": "Hello, this is a sample transcription of the audio file.",
"confidence": 0.95,
"offset_ms": 0,
"duration_ms": 2100
}
]
}Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Identificador del modelo de transcripción. Por defecto, es 'auto', lo que selecciona el mejor modelo disponible. Se ignora cuando se solicita la diarización del hablante.
"auto"
El idioma del audio de entrada en formato ISO-639-1 o BCP-47 (por ejemplo, 'en' o 'en-US'). Si no se especifica, el servicio de transcripción detecta automáticamente el idioma.
"en"
¿Incluir datos de segmentos de oradores? Por defecto es falso. Cuando es verdadero, la respuesta incluye un array de oradores dividido por el orador detectado.
true
Parámetro de aviso heredado mantenido por compatibilidad hacia atrás. Usado solo por la ruta de respaldo para cargas que no son WAV.
"This is a technical podcast about machine learning."
Parámetro de temperatura heredado mantenido por compatibilidad hacia atrás. Utilizado solo por la ruta de respaldo para cargas no WAV.
0 <= x <= 10.2
Archivo de audio para transcribir.
Requisitos del archivo:
Opciones de carga:
Nota: Para cargas por fragmentos, el servidor almacena en búfer todos los fragmentos antes de procesarlos. La transcripción comienza solo después de haber recibido el archivo completo.
Está bien
Respuesta del punto final de transcripción que contiene el texto transcrito, el idioma detectado, la puntuación de confianza y segmentos de hablantes opcionales.
El texto transcrito del archivo de audio
El código de idioma detectado o especificado en formato ISO-639-1 (por ejemplo, 'en', 'es', 'fr')
Puntuación de confianza de 0 a 1 donde 1 indica la mayor confianza en la precisión de la transcripción.
Los segmentos de diarización de hablantes, devueltos solo cuando include_speaker_data es verdadero.
Show child attributes
¿Esta página le ayudó?