Pular para o conteúdo principal

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

A API MKA1 pode retornar texto, áudio e imagens. Texto é a modalidade de saída padrão. Use modalities e audio para ativar a saída de fala, ou adicione a ferramenta image_generation para produzir imagens.

Tipos de saída suportados

ModalidadeComo ativarFormato de saída
TextoPadrão — sem configuração extraoutput_text na resposta
Áudio (fala)Defina modalities: ["text", "audio"]Áudio em Base64 + transcrição
ImagemAdicione a ferramenta image_generationURL da imagem ou base64

Gerar áudio (texto para fala)

Solicite saída de áudio definindo modalities para ["text", "audio"] e especificando uma voz e formato no parâmetro audio. A resposta inclui tanto a transcrição do texto quanto os dados de áudio codificados em base64.

Configuração de áudio

ParâmetroOpçõesPadrão
voicealloy e outros perfis de vozalloy
formatwav, mp3, flac, opus, pcm16wav
O áudio é sintetizado a 24 kHz, 16-bit mono.
mka1 llm responses create \
  -H 'X-On-Behalf-Of: <end-user-id>' \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": "Say hello in a friendly way. Keep it very short.",
    "modalities": ["text", "audio"],
    "audio": { "voice": "alloy", "format": "wav" }
  }'
A resposta contém um item output_audio com o áudio codificado em base64 e uma transcrição do que foi falado:
{
  "status": "completed",
  "output": [
    {
      "type": "message",
      "role": "assistant",
      "content": [
        { "type": "output_text", "text": "Hello!" }
      ]
    },
    {
      "type": "output_audio",
      "id": "audio_460caf1079b34fa0b4aa74448dff4ea7",
      "data": "<Base64-encoded WAV audio data>",
      "transcript": "Hi there!",
      "status": "completed"
    }
  ]
}
O campo data contém o arquivo de áudio completo (268 KB neste exemplo). O campo transcript contém o texto que o modelo escolheu para falar — que pode ser ligeiramente diferente do texto de saída.

Salvar áudio em um arquivo

# Gere áudio e extraia os dados base64, depois decodifique para um arquivo
mka1 llm responses create \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": "Read this sentence aloud: The quick brown fox jumps over the lazy dog.",
    "modalities": ["text", "audio"],
    "audio": { "voice": "alloy", "format": "mp3" }
  }' \
  --output-format json \
  --jq '.output[] | select(.type == "output_audio") | .data' | base64 -d > output.mp3

Idiomas suportados

A saída de áudio suporta detecção automática de idioma e mais de 20 idiomas, incluindo inglês, chinês, hindi, espanhol, árabe, bengali, português, russo, japonês, punjabi, alemão, coreano, francês, turco, italiano, tailandês, polonês, holandês, indonésio, vietnamita e urdu.

Gerar imagens

Use a ferramenta image_generation para criar imagens a partir de prompts de texto. O modelo interpreta sua mensagem, gera um prompt para o modelo de imagem e retorna o resultado.

Modelos de geração de imagem

ModeloMelhor para
meetkai:flux-2-kleinGeração rápida, uso geral (padrão)
meetkai:z-image-turboImagens de alta qualidade e detalhadas

Opções de geração de imagem

ParâmetroOpçõesPadrão
size1024x1024, 1024x1536, 1536x1024, meetkai:functionary-ptmeetkai:functionary-pt
qualitylow, medium, high, meetkai:functionary-ptmeetkai:functionary-pt
output_formatpng, webp, jpegpng
backgroundtransparent, opaque, meetkai:functionary-ptmeetkai:functionary-pt
mka1 llm responses create --body '{
  "model": "meetkai:functionary-pt",
  "input": "Generate an image of a sunset over a mountain lake.",
  "tools": [
    {
      "type": "image_generation",
      "model": "meetkai:functionary-pt",
      "quality": "high",
      "size": "1024x1024",
      "output_format": "png"
    }
  ]
}'
A resposta inclui um item image_generation_call com a URL da imagem gerada e o prompt revisado usado pelo modelo de imagem:
{
  "status": "completed",
  "output": [
    {
      "type": "message",
      "role": "assistant",
      "content": [
        {
          "type": "output_text",
          "text": "I'll generate an image of a beautiful sunset over a mountain lake for you."
        }
      ]
    },
    {
      "type": "image_generation_call",
      "id": "ig_abc123",
      "status": "completed",
      "result": "<Generated Image URL>",
      "revised_prompt": "A breathtaking sunset over a pristine mountain lake, with golden and orange hues reflecting on the calm water surface. Snow-capped mountain peaks in the background, dramatic clouds in the sky with vibrant sunset colors of pink, purple, and orange.",
      "size": "meetkai:functionary-pt",
      "quality": "meetkai:functionary-pt",
      "output_format": "png"
    }
  ]
}
O campo result contém uma URL para a imagem gerada. O campo revised_prompt mostra o prompt expandido que o modelo de imagem usou — o LLM aprimora sua instrução breve em uma descrição detalhada da imagem.

Forçar geração de imagem

Use tool_choice para garantir que o modelo gere uma imagem em vez de responder apenas com texto.
mka1 llm responses create --body '{
  "model": "meetkai:functionary-pt",
  "input": "A red circle on a white background.",
  "tools": [{ "type": "image_generation" }],
  "tool_choice": { "type": "image_generation" }
}'

Estrutura da saída de imagem

O array output da resposta contém estes itens quando uma imagem é gerada:
  1. function_call — chamada do modelo para a ferramenta de geração de imagem com o prompt refinado
  2. image_generation_call — resultado da geração com status: "completed" e result (URL da imagem)
  3. function_call_output — saída bruta da ferramenta contendo a URL
  4. message — resposta textual do modelo descrevendo ou referenciando a imagem
As URLs das imagens expiram após 1 hora. Baixe ou faça cache delas se precisar de acesso prolongado.

APIs independentes

Para acesso direto sem passar pela API de Responses, a MKA1 também fornece endpoints independentes:

API de texto para fala

mka1 llm speech speak \
  --text 'Hello, welcome to the MKA1 platform.' \
  --language en \
  --output-file output.wav

API de imagens

mka1 llm images create \
  --model meetkai:functionary-pt \
  --prompt 'A futuristic city skyline at dusk' \
  --size 1024x1024 \
  --quality hd

Próximos passos