Saída multimodal

A API MKA1 pode retornar texto, áudio e imagens. Texto é a modalidade de saída padrão. Use modalities e audio para ativar a saída de fala, ou adicione a ferramenta image_generation para produzir imagens.

Tipos de saída suportados

Modalidade	Como ativar	Formato de saída
Texto	Padrão — sem configuração extra	`output_text` na resposta
Áudio (fala)	Defina `modalities: ["text", "audio"]`	Áudio em Base64 + transcrição
Imagem	Adicione a ferramenta `image_generation`	URL da imagem ou base64

Gerar áudio (texto para fala)

Solicite saída de áudio definindo modalities para ["text", "audio"] e especificando uma voz e formato no parâmetro audio. A resposta inclui tanto a transcrição do texto quanto os dados de áudio codificados em base64.

Configuração de áudio

Parâmetro	Opções	Padrão
`voice`	`alloy` e outros perfis de voz	`alloy`
`format`	`wav`, `mp3`, `flac`, `opus`, `pcm16`	`wav`

O áudio é sintetizado a 24 kHz, 16-bit mono.

mka1 llm responses create \
  -H 'X-On-Behalf-Of: <end-user-id>' \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": "Say hello in a friendly way. Keep it very short.",
    "modalities": ["text", "audio"],
    "audio": { "voice": "alloy", "format": "wav" }
  }'

A resposta contém um item output_audio com o áudio codificado em base64 e uma transcrição do que foi falado:

{
  "status": "completed",
  "output": [
    {
      "type": "message",
      "role": "assistant",
      "content": [
        { "type": "output_text", "text": "Hello!" }
      ]
    },
    {
      "type": "output_audio",
      "id": "audio_460caf1079b34fa0b4aa74448dff4ea7",
      "data": "<Base64-encoded WAV audio data>",
      "transcript": "Hi there!",
      "status": "completed"
    }
  ]
}

O campo data contém o arquivo de áudio completo (268 KB neste exemplo). O campo transcript contém o texto que o modelo escolheu para falar — que pode ser ligeiramente diferente do texto de saída.

Salvar áudio em um arquivo

# Gere áudio e extraia os dados base64, depois decodifique para um arquivo
mka1 llm responses create \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": "Read this sentence aloud: The quick brown fox jumps over the lazy dog.",
    "modalities": ["text", "audio"],
    "audio": { "voice": "alloy", "format": "mp3" }
  }' \
  --output-format json \
  --jq '.output[] | select(.type == "output_audio") | .data' | base64 -d > output.mp3

Idiomas suportados

A saída de áudio suporta detecção automática de idioma e mais de 20 idiomas, incluindo inglês, chinês, hindi, espanhol, árabe, bengali, português, russo, japonês, punjabi, alemão, coreano, francês, turco, italiano, tailandês, polonês, holandês, indonésio, vietnamita e urdu.

Gerar imagens

Use a ferramenta image_generation para criar imagens a partir de prompts de texto. O modelo interpreta sua mensagem, gera um prompt para o modelo de imagem e retorna o resultado.

Modelos de geração de imagem

Modelo	Melhor para
`meetkai:flux-2-klein`	Geração rápida, uso geral (padrão)
`meetkai:z-image-turbo`	Imagens de alta qualidade e detalhadas

Opções de geração de imagem

Parâmetro	Opções	Padrão
`size`	`1024x1024`, `1024x1536`, `1536x1024`, `meetkai:functionary-pt`	`meetkai:functionary-pt`
`quality`	`low`, `medium`, `high`, `meetkai:functionary-pt`	`meetkai:functionary-pt`
`output_format`	`png`, `webp`, `jpeg`	`png`
`background`	`transparent`, `opaque`, `meetkai:functionary-pt`	`meetkai:functionary-pt`

mka1 llm responses create --body '{
  "model": "meetkai:functionary-pt",
  "input": "Generate an image of a sunset over a mountain lake.",
  "tools": [
    {
      "type": "image_generation",
      "model": "meetkai:functionary-pt",
      "quality": "high",
      "size": "1024x1024",
      "output_format": "png"
    }
  ]
}'

A resposta inclui um item image_generation_call com a URL da imagem gerada e o prompt revisado usado pelo modelo de imagem:

{
  "status": "completed",
  "output": [
    {
      "type": "message",
      "role": "assistant",
      "content": [
        {
          "type": "output_text",
          "text": "I'll generate an image of a beautiful sunset over a mountain lake for you."
        }
      ]
    },
    {
      "type": "image_generation_call",
      "id": "ig_abc123",
      "status": "completed",
      "result": "<Generated Image URL>",
      "revised_prompt": "A breathtaking sunset over a pristine mountain lake, with golden and orange hues reflecting on the calm water surface. Snow-capped mountain peaks in the background, dramatic clouds in the sky with vibrant sunset colors of pink, purple, and orange.",
      "size": "meetkai:functionary-pt",
      "quality": "meetkai:functionary-pt",
      "output_format": "png"
    }
  ]
}

O campo result contém uma URL para a imagem gerada. O campo revised_prompt mostra o prompt expandido que o modelo de imagem usou — o LLM aprimora sua instrução breve em uma descrição detalhada da imagem.

Forçar geração de imagem

Use tool_choice para garantir que o modelo gere uma imagem em vez de responder apenas com texto.

mka1 llm responses create --body '{
  "model": "meetkai:functionary-pt",
  "input": "A red circle on a white background.",
  "tools": [{ "type": "image_generation" }],
  "tool_choice": { "type": "image_generation" }
}'

Estrutura da saída de imagem

O array output da resposta contém estes itens quando uma imagem é gerada:

function_call — chamada do modelo para a ferramenta de geração de imagem com o prompt refinado
image_generation_call — resultado da geração com status: "completed" e result (URL da imagem)
function_call_output — saída bruta da ferramenta contendo a URL
message — resposta textual do modelo descrevendo ou referenciando a imagem

As URLs das imagens expiram após 1 hora. Baixe ou faça cache delas se precisar de acesso prolongado.

APIs independentes

Para acesso direto sem passar pela API de Responses, a MKA1 também fornece endpoints independentes:

API de texto para fala

mka1 llm speech speak \
  --text 'Hello, welcome to the MKA1 platform.' \
  --language en \
  --output-file output.wav

API de imagens

mka1 llm images create \
  --model meetkai:functionary-pt \
  --prompt 'A futuristic city skyline at dusk' \
  --size 1024x1024 \
  --quality hd

Próximos passos

Entrada multimodal — envie imagens, áudio e documentos para o modelo
Fala — transcreva áudio e gere fala com os endpoints independentes de fala
Modo avançado de voz — conversas de voz em tempo real com LiveKit
Gerar uma resposta — solicitações de texto e trocas multi-turno

Primeiros passos

Respostas

Recursos

CLI

Receitas

Benchmarks

Infraestrutura

Saída multimodal

Tipos de saída suportados

Gerar áudio (texto para fala)

Configuração de áudio

Salvar áudio em um arquivo

Idiomas suportados

Gerar imagens

Modelos de geração de imagem

Opções de geração de imagem

Forçar geração de imagem

Estrutura da saída de imagem

APIs independentes

API de texto para fala

API de imagens

Próximos passos

Primeiros passos

Respostas

Recursos

CLI

Receitas

Benchmarks

Infraestrutura

Documentation Index

​Tipos de saída suportados

​Gerar áudio (texto para fala)

​Configuração de áudio

​Salvar áudio em um arquivo

​Idiomas suportados

​Gerar imagens

​Modelos de geração de imagem

​Opções de geração de imagem

​Forçar geração de imagem

​Estrutura da saída de imagem

​APIs independentes

​API de texto para fala

​API de imagens

​Próximos passos

Tipos de saída suportados

Gerar áudio (texto para fala)

Configuração de áudio

Salvar áudio em um arquivo

Idiomas suportados

Gerar imagens

Modelos de geração de imagem

Opções de geração de imagem

Forçar geração de imagem

Estrutura da saída de imagem

APIs independentes

API de texto para fala

API de imagens

Próximos passos