modalities y audio para habilitar la salida de voz, o añade la herramienta image_generation para producir imágenes.
Tipos de salida soportados
| Modalidad | Cómo habilitar | Formato de salida |
|---|---|---|
| Texto | Predeterminado — sin configuración extra | output_text en la respuesta |
| Audio (voz) | Establece modalities: ["text", "audio"] | Audio en base64 + transcripción |
| Imagen | Añade la herramienta image_generation | URL de imagen o base64 |
Generar audio (texto a voz)
Solicita salida de audio estableciendomodalities a ["text", "audio"] y especificando una voz y formato en el parámetro audio. La respuesta incluye tanto la transcripción de texto como los datos de audio codificados en base64.
Configuración de audio
| Parámetro | Opciones | Predeterminado |
|---|---|---|
voice | alloy y otros perfiles de voz | alloy |
format | wav, mp3, flac, opus, pcm16 | wav |
output_audio con el audio codificado en base64 y una transcripción de lo que se dijo:
data contiene el archivo de audio completo (268 KB en este ejemplo). El campo transcript contiene el texto que el modelo eligió decir — que puede diferir ligeramente del texto de salida.
Guardar audio en un archivo
Idiomas soportados
La salida de audio soporta detección automática de idioma y más de 20 idiomas incluyendo inglés, chino, hindi, español, árabe, bengalí, portugués, ruso, japonés, panyabí, alemán, coreano, francés, turco, italiano, tailandés, polaco, neerlandés, indonesio, vietnamita y urdu.Generar imágenes
Utiliza la herramientaimage_generation para crear imágenes a partir de indicaciones de texto. El modelo interpreta tu mensaje, genera una indicación para el modelo de imágenes y devuelve el resultado.
Modelos de generación de imágenes
| Modelo | Mejor para |
|---|---|
meetkai:flux-2-klein | Generación rápida, uso general (predeterminado) |
meetkai:z-image-turbo | Imágenes de alta calidad y detalle |
Opciones de generación de imágenes
| Parámetro | Opciones | Predeterminado |
|---|---|---|
size | 1024x1024, 1024x1536, 1536x1024, auto | auto |
quality | low, medium, high, auto | auto |
output_format | png, webp, jpeg | png |
background | transparent, opaque, auto | auto |
image_generation_call con la URL de la imagen generada y la indicación revisada utilizada por el modelo de imágenes:
result contiene una URL a la imagen generada. El campo revised_prompt muestra la indicación expandida que el modelo de imágenes utilizó — el LLM mejora tu instrucción breve en una descripción detallada de la imagen.
Forzar la generación de imágenes
Utilizatool_choice para asegurarte de que el modelo genere una imagen en lugar de responder solo con texto.
Estructura de la salida de imagen
El arreglooutput de la respuesta contiene estos elementos cuando se genera una imagen:
function_call— la llamada del modelo a la herramienta de generación de imágenes con la indicación refinadaimage_generation_call— el resultado de la generación constatus: "completed"yresult(URL de la imagen)function_call_output— la salida cruda de la herramienta que contiene la URLmessage— la respuesta de texto del modelo describiendo o haciendo referencia a la imagen
APIs independientes
Para acceso directo sin pasar por la API de Responses, MKA1 también proporciona endpoints independientes:API de texto a voz
API de imágenes
Próximos pasos
- Entrada multimodal — envía imágenes, audio y documentos al modelo
- Voz — transcribe audio y genera voz con los endpoints independientes de voz
- Modo de voz avanzado — conversaciones de voz en tiempo real con LiveKit
- Generar una respuesta — solicitudes de texto e intercambios multi-turno