modalities e audio para habilitar a saída de fala, ou adicione a ferramenta image_generation para produzir imagens.
Tipos de saída suportados
| Modalidade | Como habilitar | Formato de saída |
|---|---|---|
| Texto | Padrão — nenhuma configuração extra | output_text na resposta |
| Áudio (fala) | Defina modalities: ["text", "audio"] | Áudio em Base64 + transcrição |
| Imagem | Adicione a ferramenta image_generation | URL da imagem ou base64 |
Gerar áudio (texto para fala)
Solicite a saída de áudio definindomodalities como ["text", "audio"] e especificando uma voz e formato no parâmetro audio. A resposta inclui tanto a transcrição do texto quanto os dados de áudio codificados em base64.
Configuração de áudio
| Parâmetro | Opções | Padrão |
|---|---|---|
voice | alloy e outros perfis de voz | alloy |
format | wav, mp3, flac, opus, pcm16 | wav |
Salvar áudio em um arquivo
Idiomas suportados
A saída de áudio suporta detecção automática de idioma e mais de 20 idiomas, incluindo inglês, chinês, hindi, espanhol, árabe, bengali, português, russo, japonês, punjabi, alemão, coreano, francês, turco, italiano, tailandês, polonês, holandês, indonésio, vietnamita e urdu.Gerar imagens
Use a ferramentaimage_generation para criar imagens a partir de prompts de texto. O modelo interpreta sua mensagem, gera um prompt para o modelo de imagem e retorna o resultado.
Modelos de geração de imagem
| Modelo | Melhor para |
|---|---|
meetkai:flux-2-klein | Geração rápida, uso geral (padrão) |
meetkai:z-image-turbo | Imagens de alta qualidade e detalhadas |
Opções de geração de imagem
| Parâmetro | Opções | Padrão |
|---|---|---|
size | 1024x1024, 1024x1536, 1536x1024, auto | auto |
quality | low, medium, high, auto | auto |
output_format | png, webp, jpeg | png |
background | transparent, opaque, auto | auto |
Forçar geração de imagem
Usetool_choice para garantir que o modelo gere uma imagem em vez de responder apenas com texto.
Estrutura da saída de imagem
O arrayoutput da resposta contém estes itens quando uma imagem é gerada:
function_call— a chamada do modelo para a ferramenta de geração de imagem com o prompt refinadoimage_generation_call— o resultado da geração comstatus: "completed"eresult(URL da imagem)function_call_output— a saída bruta da ferramenta contendo a URLmessage— a resposta de texto do modelo descrevendo ou referenciando a imagem
APIs independentes
Para acesso direto sem passar pela API Responses, a MKA1 também fornece endpoints independentes:API de texto para fala
API de imagens
Próximos passos
- Entrada multimodal — envie imagens, áudio e documentos para o modelo
- Fala — transcreva áudio e gere fala com os endpoints independentes de fala
- Modo de voz avançado — conversas por voz em tempo real com LiveKit
- Gerar uma resposta — requisições de texto e trocas de múltiplos turnos