Voz - MKA1

Utiliza los endpoints de voz de la API de MKA1 cuando necesites transcripción de voz a texto basada en archivos o conversión de texto a voz. Para sesiones de voz bidireccionales en tiempo real, usa el Modo de voz avanzado.

Elige el endpoint adecuado

Caso de uso	Endpoint	Notas
Transcribir un archivo grabado	Transcripción de voz a texto	Sube audio con `multipart/form-data`
Generar un archivo WAV desde texto	Texto a voz	Mejor para generación de archivos completos
Iniciar la reproducción tan pronto como llegue el audio	Texto a voz en streaming	Mejor para reproducción de baja latencia

Transcribir audio

Envía un archivo de audio al endpoint de transcripción cuando quieras obtener texto de un archivo grabado. Si tu aplicación actúa en nombre de un usuario final, también envía X-On-Behalf-Of. Formatos de audio soportados: FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM, PCM.

mka1 llm speech transcribe \
  --file ./episode.wav \
  --language en \
  --prompt 'This is a technical podcast about machine learning.' \
  --temperature 0.2 \
  -H 'X-On-Behalf-Of: <end-user-id>'

La respuesta incluye el texto transcrito, además del idioma detectado y el nivel de confianza:

{
  "text": "Hello! We're excited to show you our native speech capabilities.",
  "language": "en",
  "confidence": 0.8429018476208717
}

Separar hablantes en una transcripción

Si necesitas diarización, habilita los datos de hablante en la solicitud de transcripción. Cuando está habilitado, la respuesta puede incluir un arreglo speakers con segmentos etiquetados por hablante y metadatos de tiempo.

Para include_speaker_data, sube audio en formato WAV o PCM para transcripción no en streaming. Otros formatos de audio devuelven 400 BAD_REQUEST con el mensaje Speaker diarization currently requires WAV/PCM audio for non-streaming transcription.

const result = await mka1.llm.speech.transcribe({
  language: 'en',
  includeSpeakerData: true,
  prompt: 'This is a short podcast clip about AI product updates.',
  temperature: 0.2,
  requestBody: {
    file: await openAsBlob('panel.wav'),
  },
}, { headers: { 'X-On-Behalf-Of': '<end-user-id>' } });

console.log(result.speakers);

Ejemplo de respuesta con separación de hablantes:

{
  "text": "Welcome back to the show. Today we're looking at how speech APIs fit into production apps. We'll keep it practical and focus on latency, accuracy, and speaker turns.",
  "language": "en",
  "confidence": 0.91177404,
  "speakers": [
    {
      "speaker": "Speaker-1",
      "text": "Welcome back to the show.",
      "confidence": 0.91177404,
      "offset_ms": 80,
      "duration_ms": 1280
    },
    {
      "speaker": "Speaker-2",
      "text": "Today we're looking at how speech APIs fit into production apps.",
      "confidence": 0.91177404,
      "offset_ms": 1540,
      "duration_ms": 3380
    },
    {
      "speaker": "Speaker-1",
      "text": "We'll keep it practical and focus on latency, accuracy, and speaker turns.",
      "confidence": 0.91177404,
      "offset_ms": 5220,
      "duration_ms": 3660
    }
  ]
}

Usa el campo text de nivel superior cuando necesites una transcripción unificada. Usa speakers cuando necesites subtítulos, turnos de habla o análisis de hablantes posteriores.

Generar voz

Utiliza el endpoint estándar de texto a voz cuando quieras un archivo WAV completo. El cuerpo de la respuesta es audio binario y las cabeceras de la respuesta incluyen X-Language-Code.

mka1 llm speech speak \
  --text 'Welcome to the MKA1 API speech guide.' \
  --language en \
  --output-file speech.wav

Transmitir voz para menor latencia

Utiliza texto a voz en streaming cuando quieras que la reproducción comience antes de que el archivo de audio esté completo. Elige mp3 para cargas útiles más pequeñas o pcm para audio sin comprimir.

mka1 llm speech speak-streaming \
  --text 'Start speaking this response as soon as audio is ready.' \
  --language en \
  --format-param mp3 \
  --output-file speech.mp3

Próximos pasos

Revisa la referencia de Transcripción de voz a texto para detalles de solicitud y respuesta
Revisa la referencia de Texto a voz para generación de WAV
Revisa la referencia de Texto a voz en streaming para salida de baja latencia
Usa el Modo de voz avanzado para conversaciones en tiempo real

Documentation Index

​Elige el endpoint adecuado

​Transcribir audio

​Separar hablantes en una transcripción

​Generar voz

​Transmitir voz para menor latencia

​Próximos pasos

Elige el endpoint adecuado

Transcribir audio

Separar hablantes en una transcripción

Generar voz

Transmitir voz para menor latencia

Próximos pasos