Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

Utiliza los endpoints de voz de la API de MKA1 cuando necesites transcripción de voz a texto basada en archivos o conversión de texto a voz. Para sesiones de voz bidireccionales en tiempo real, usa el Modo de voz avanzado.

Elige el endpoint adecuado

Caso de usoEndpointNotas
Transcribir un archivo grabadoTranscripción de voz a textoSube audio con multipart/form-data
Generar un archivo WAV desde textoTexto a vozMejor para generación de archivos completos
Iniciar la reproducción tan pronto como llegue el audioTexto a voz en streamingMejor para reproducción de baja latencia

Transcribir audio

Envía un archivo de audio al endpoint de transcripción cuando quieras obtener texto de un archivo grabado. Si tu aplicación actúa en nombre de un usuario final, también envía X-On-Behalf-Of. Formatos de audio soportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM, PCM.
mka1 llm speech transcribe \
  --file ./episode.wav \
  --language en \
  --prompt 'This is a technical podcast about machine learning.' \
  --temperature 0.2 \
  -H 'X-On-Behalf-Of: <end-user-id>'
La respuesta incluye el texto transcrito, además del idioma detectado y el nivel de confianza:
{
  "text": "Hello! We're excited to show you our native speech capabilities.",
  "language": "en",
  "confidence": 0.8429018476208717
}

Separar hablantes en una transcripción

Si necesitas diarización, habilita los datos de hablante en la solicitud de transcripción. Cuando está habilitado, la respuesta puede incluir un arreglo speakers con segmentos etiquetados por hablante y metadatos de tiempo.
Para include_speaker_data, sube audio en formato WAV o PCM para transcripción no en streaming. Otros formatos de audio devuelven 400 BAD_REQUEST con el mensaje Speaker diarization currently requires WAV/PCM audio for non-streaming transcription.
const result = await mka1.llm.speech.transcribe({
  language: 'en',
  includeSpeakerData: true,
  prompt: 'This is a short podcast clip about AI product updates.',
  temperature: 0.2,
  requestBody: {
    file: await openAsBlob('panel.wav'),
  },
}, { headers: { 'X-On-Behalf-Of': '<end-user-id>' } });

console.log(result.speakers);
Ejemplo de respuesta con separación de hablantes:
{
  "text": "Welcome back to the show. Today we're looking at how speech APIs fit into production apps. We'll keep it practical and focus on latency, accuracy, and speaker turns.",
  "language": "en",
  "confidence": 0.91177404,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Welcome back to the show.",
      "confidence": 0.91177404,
      "offset_ms": 80,
      "duration_ms": 1280
    },
    {
      "speaker": "Speaker-2",
      "text": "Today we're looking at how speech APIs fit into production apps.",
      "confidence": 0.91177404,
      "offset_ms": 1540,
      "duration_ms": 3380
    },
    {
      "speaker": "Speaker-1",
      "text": "We'll keep it practical and focus on latency, accuracy, and speaker turns.",
      "confidence": 0.91177404,
      "offset_ms": 5220,
      "duration_ms": 3660
    }
  ]
}
Usa el campo text de nivel superior cuando necesites una transcripción unificada. Usa speakers cuando necesites subtítulos, turnos de habla o análisis de hablantes posteriores.

Generar voz

Utiliza el endpoint estándar de texto a voz cuando quieras un archivo WAV completo. El cuerpo de la respuesta es audio binario y las cabeceras de la respuesta incluyen X-Language-Code.
mka1 llm speech speak \
  --text 'Welcome to the MKA1 API speech guide.' \
  --language en \
  --output-file speech.wav

Transmitir voz para menor latencia

Utiliza texto a voz en streaming cuando quieras que la reproducción comience antes de que el archivo de audio esté completo. Elige mp3 para cargas útiles más pequeñas o pcm para audio sin comprimir.
mka1 llm speech speak-streaming \
  --text 'Start speaking this response as soon as audio is ready.' \
  --language en \
  --format-param mp3 \
  --output-file speech.mp3

Próximos pasos