Pular para o conteúdo principal
POST
/
api
/
v1
/
llm
/
responses
Python (SDK)
from mka1 import SDK


with SDK(
    bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:

    res = sdk.llm.responses.create(model="meetkai:functionary-urdu-mini-pak", input="What is the capital of France?", stream=False, store=True, background=False, parallel_tool_calls=True, max_tool_calls=64, truncation="auto", service_tier="auto")

    with res as event_stream:
        for event in event_stream:
            # handle event
            print(event, flush=True)
{
  "id": "resp_abc123",
  "object": "response",
  "created_at": 1735689600,
  "completed_at": 1735689601,
  "status": "completed",
  "error": null,
  "incomplete_details": null,
  "background": false,
  "instructions": null,
  "max_output_tokens": null,
  "max_tool_calls": 30,
  "metadata": {},
  "model": "meetkai:functionary-urdu-mini-pak",
  "output": [
    {
      "type": "message",
      "id": "msg_abc123",
      "role": "assistant",
      "content": [
        {
          "type": "output_text",
          "text": "The capital of France is Paris.",
          "annotations": []
        }
      ],
      "status": "completed"
    }
  ],
  "output_text": "The capital of France is Paris.",
  "parallel_tool_calls": true,
  "previous_response_id": null,
  "reasoning": {
    "effort": null,
    "summary": null
  },
  "service_tier": "auto",
  "store": true,
  "text": {
    "format": {
      "type": "text"
    },
    "verbosity": "medium"
  },
  "tool_choice": "auto",
  "tools": [],
  "truncation": "auto",
  "usage": {
    "input_tokens": 8,
    "input_tokens_details": {
      "cached_tokens": 0
    },
    "output_tokens": 7,
    "output_tokens_details": {
      "reasoning_tokens": 0
    },
    "total_tokens": 15
  },
  "user": null
}

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

Autorizações

Authorization
string
header
obrigatório

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Cabeçalhos

X-On-Behalf-Of
string

Optional external end-user identifier forwarded by the API gateway.

Corpo

application/json

Esquema de solicitação para criar uma nova resposta do agente. Configura o modelo do agente, entrada, ferramentas, formato de saída e comportamento. Suporta execução tanto em primeiro plano (bloqueante) quanto em segundo plano (assíncrona) com streaming opcional.

model
string
obrigatório

A ID do modelo a ser usada para gerar a resposta.

input

A entrada do usuário a ser enviada ao agente. Pode ser uma simples sequência de texto para consultas básicas ou uma array de objetos de item contendo texto, imagens, arquivos ou áudio para interações multimodais. Este é o conteúdo principal ao qual o agente irá responder.

instructions
string

Instruções do sistema ou do desenvolvedor inseridas no contexto do modelo antes da entrada do usuário. Use isso para guiar o comportamento do agente, definir personalidade, estabelecer restrições ou fornecer conhecimento específico de domínio. Atua como uma mensagem do sistema persistente para esta resposta.

conversation

A conversa à qual esta resposta pertence. Pode ser uma string de ID de conversa ou um objeto de conversa. Usado para manter o contexto e o histórico em várias interações com agentes. Opcional - omita para interações pontuais.

previous_response_id
string

O ID único de uma resposta anterior para continuar. Usado para conversas de múltiplas turnos para manter o contexto e o histórico. O agente terá acesso a todas as interações anteriores na cadeia.

prompt
object

Referência a um modelo de prompt a ser usado para esta resposta, junto com variáveis para substituir. Permite usar modelos de prompt predefinidos e versionados em vez de instruções inline. O sistema de modelos suporta interpolação de variáveis.

include
enum<string>[]

Campos adicionais para incluir na saída da resposta. Permite solicitar dados aninhados específicos, como fontes de busca na web, saídas do interpretador de código, capturas de tela de computador, resultados de busca de arquivos, imagens de entrada, logprobs de saída ou conteúdo de raciocínio. Esses campos podem ter implicações de desempenho ou custo.

Opções disponíveis:
web_search_call.action.sources,
code_interpreter_call.outputs,
computer_call_output.output.image_url,
file_search_call.results,
message.input_image.image_url,
message.output_text.logprobs,
reasoning.encrypted_content
text
object

Opções de configuração para a saída de texto do modelo. Inclui formato de resposta (texto, objeto JSON, esquema JSON) e nível de detalhamento (baixo, médio, alto). Use isso para controlar a estrutura da saída e o nível de detalhe.

stream
boolean
padrão:false

Se definido como verdadeiro, os dados da resposta serão transmitidos usando Eventos Enviados pelo Servidor (SSE) para atualizações em tempo real à medida que o agente gera a resposta. Quando falso, a resposta é retornada como um único objeto completo. O padrão é falso.

stream_options
object

Opções adicionais para configurar o comportamento de streaming quando o streaming está ativado.

store
boolean
padrão:true

Se deve armazenar a resposta gerada para recuperação posterior. Quando verdadeiro, a resposta é salva e pode ser recuperada através de GET /responses/{id}. Quando falso, a resposta não é persistida após a geração. O padrão é verdadeiro.

background
boolean
padrão:false

Se o modelo deve ser executado em segundo plano de forma assíncrona. Quando verdadeiro, a solicitação retorna imediatamente com um ID de resposta enquanto o agente processa em segundo plano. Use GET /responses/{id} para recuperar os resultados depois. Quando falso, a solicitação bloqueia até a conclusão. O padrão é falso.

webhook_url
string<uri>

URL para receber notificações de webhook sobre mudanças de status (em espera, em andamento, concluído, falhado, incompleto). Válido apenas quando background=true. Se fornecido sem background=true, a solicitação será rejeitada.

webhook_secret
string

Segredo opcional para a assinatura HMAC-SHA256 de payloads de webhook. Quando fornecido, os webhooks incluem um cabeçalho X-Webhook-Signature com a assinatura. Requer que webhook_url seja configurado.

Required string length: 16 - 256
tools
(Function tool definition · object | File search tool definition · object | Computer use tool definition · object | Web search tool definition · object | MCP tool definition · object | Code interpreter tool definition · object | Image generation tool definition · object | Local shell tool definition · object | Shell tool definition · object | Custom tool definition · object | Web search preview tool definition · object | Hosted tool definition · object | Sleep tool definition · object | History tool definition · object)[]

Matriz de definições de ferramentas que o agente pode usar durante a geração de respostas. Suporta ferramentas integradas (pesquisa na web, pesquisa de arquivos, interpretador de código, uso do computador, geração de imagens) e ferramentas personalizadas (funções, MCP, shell local). Cada definição de ferramenta especifica seu tipo e configuração.

Definição da ferramenta de função: Define uma ferramenta de função chamável. Forneça um nome de ferramenta e um esquema de parâmetros, com descrição opcional e carregamento diferido.

tool_choice

Controla como o agente seleciona quais ferramentas usar. Pode ser 'nenhum' (sem ferramentas), 'automático' (o modelo decide), 'obrigatório' (deve usar ferramentas) ou um objeto de seleção de ferramenta específico. Use isso para forçar ou impedir o uso de ferramentas.

Opções disponíveis:
none,
auto,
required
parallel_tool_calls
boolean
padrão:true

Permitir que o agente execute várias chamadas de ferramentas em paralelo. Quando verdadeiro, o agente pode fazer chamadas de ferramentas simultâneas para eficiência. Quando falso, as ferramentas são chamadas sequencialmente. O padrão é verdadeiro para um melhor desempenho.

max_tool_calls
integer
padrão:64

O número total máximo de chamadas de ferramentas que o agente pode fazer durante esta resposta. Útil para controlar o tempo de execução e evitar loops infinitos. Aplica-se a todas as ferramentas integradas, como busca na web, busca de arquivos, interpretador de código, etc. Deve ser um número inteiro positivo entre 1 e 300. O padrão é 64.

Intervalo obrigatório: 1 <= x <= 300
reasoning
object

Opções de configuração para modelos de raciocínio. Controla o nível de esforço de raciocínio (mínimo, baixo, médio, alto) e a verbosidade do resumo (automático, conciso, detalhado). Aplicável apenas a modelos específicos com capacidade de raciocínio.

auto_routing
boolean

Quando verdadeiro, o gateway inspeciona a complexidade da solicitação e roteia automaticamente entre variantes quantizadas, MoE e densas dentro da família de modelos solicitada.

auto_routing_debug
boolean

Extensão de gateway. Quando verdadeiro juntamente com auto_routing, os metadados de resposta incluem uma decisão de roteamento serializada compacta, para que você possa inspecionar o nível de destino inferido mesmo quando nenhuma variante irmã compatível estiver disponível.

max_output_tokens
integer

O número máximo de tokens que o modelo pode gerar em sua saída. Define um limite superior para controlar custos e o comprimento da resposta. A saída real pode ser mais curta se o modelo terminar naturalmente. Deve ser um número inteiro positivo.

Intervalo obrigatório: 1 <= x <= 9007199254740991
temperature
number

Controla a aleatoriedade na saída do modelo. Valores mais altos (por exemplo, 1,5-2,0) tornam a saída mais aleatória e criativa, enquanto valores mais baixos (por exemplo, 0,0-0,5) a tornam mais focada e determinística. Deve estar entre 0 e 2.

Intervalo obrigatório: 0 <= x <= 2
top_p
number

Parâmetro de amostragem de núcleo. O modelo considera apenas os tokens com probabilidade acumulada top_p. Valores mais baixos (por exemplo, 0,1) tornam a saída mais focada, enquanto valores mais altos (por exemplo, 0,9) permitem mais diversidade. Deve estar entre 0 e 1. Alternativa à temperatura.

Intervalo obrigatório: 0 <= x <= 1
top_logprobs
integer

O número de tokens mais prováveis a serem retornados em cada posição, juntamente com suas probabilidades logarítmicas. Deve estar entre 0 e 20. Útil para entender a confiança do modelo e explorar saídas alternativas.

Intervalo obrigatório: 0 <= x <= 20
truncation
enum<string>
padrão:auto

A estratégia de truncamento para lidar com entradas que excedem a janela de contexto do modelo. 'auto' trunca automaticamente mensagens antigas para se ajustar, 'desabilitado' retorna um erro se o contexto for muito longo. O padrão é 'auto'.

Opções disponíveis:
auto,
disabled
context_management
object[]

Estratégias de gerenciamento de contexto a serem aplicadas durante a geração de respostas. Suporta compactação, que resume o histórico de conversas mais antigas quando o contexto ultrapassa um limite de token.

Maximum array length: 1
presence_penalty
number

Penaliza novos tokens com base em sua aparição no texto até agora. Valores mais altos aumentam a probabilidade do modelo falar sobre novos tópicos.

Intervalo obrigatório: -2 <= x <= 2
frequency_penalty
number

Penaliza novos tokens com base em sua frequência no texto até agora. Valores mais altos diminuem a probabilidade do modelo repetir a mesma linha verbatim.

Intervalo obrigatório: -2 <= x <= 2
service_tier
enum<string>
padrão:auto

Especifica o nível de processamento para atender à solicitação. 'auto' permite que o sistema escolha, 'default' usa o processamento padrão, 'flex' permite agendamento flexível para prioridade inferior, 'priority' fornece processamento mais rápido. O padrão é 'auto'.

Opções disponíveis:
auto,
default,
flex,
priority
prompt_cache_key
string

Um identificador estável usado para armazenar em cache solicitações e contexto. Ajuda a reduzir custos e latência ao reutilizar o processamento de solicitações em cache. Útil para solicitações que são usadas repetidamente com pequenas variações.

safety_identifier
string

Um identificador estável usado para ajudar a detectar e prevenir violações de políticas em múltiplas solicitações. Ajuda o sistema a identificar padrões de abuso ou uso indevido. Útil para monitoramento de conformidade e segurança.

metadata
object
modalities
enum<string>[]

Tipos de saída que o modelo deve gerar. O padrão é ['texto']. Inclua 'áudio' para receber uma renderização em áudio da resposta em texto através de TTS.

Opções disponíveis:
text,
audio
audio
object

Configuração de saída de áudio. Opcional quando as modalidades incluem 'áudio'; valores padrão são aplicados se omitidos.

user
string

DEPRECADO: Um identificador único para o usuário final. Use safety_identifier para detecção de violação de políticas e prompt_cache_key para caching. Este campo é mantido para compatibilidade com versões anteriores.

Resposta

Resposta bem-sucedida - retorna eventos de streaming (SSE) ou um objeto de resposta completo (JSON) dependendo do parâmetro de stream.

id
string
obrigatório
object
any
obrigatório
created_at
number
obrigatório
completed_at
number | null
obrigatório
status
enum<string>
obrigatório

O status geral da geração de resposta. 'completo' significa finalizado com sucesso, 'falhou' significa que ocorreu um erro, 'em_andamento' significa atualmente em processamento, 'cancelado' significa cancelado pelo usuário, 'na_fila' significa esperando para começar, 'incompleto' significa conclusão parcial.

Opções disponíveis:
completed,
failed,
in_progress,
cancelled,
queued,
incomplete
error
object
obrigatório
incomplete_details
object
obrigatório
background
boolean
obrigatório
instructions
obrigatório
max_output_tokens
integer | null
obrigatório
Intervalo obrigatório: -9007199254740991 <= x <= 9007199254740991
Exemplo:

null

max_tool_calls
integer | null
obrigatório
Intervalo obrigatório: -9007199254740991 <= x <= 9007199254740991
metadata
object
obrigatório
model
string
obrigatório
output
(Input message item · object | Output message item · object | Output audio item · object | File search call item · object | Computer call item · object | Computer call output item · object | Web search call item · object | Function call item · object | Function call output item · object | Reasoning item · object | Image generation call item · object | Code interpreter call item · object | Local shell call item · object | Local shell call output item · object | Shell call item · object | Shell call output item · object | MCP list tools item · object | MCP approval request item · object | MCP approval response item · object | MCP call item · object | Custom tool call item · object | Custom tool call output item · object | Item reference item · object | Compaction item · object)[]
obrigatório

Item de mensagem de entrada: Uma mensagem com papel e conteúdo. Use isso para turnos de usuário, assistente, sistema ou desenvolvedor em entradas estruturadas.

parallel_tool_calls
boolean
obrigatório
previous_response_id
string | null
obrigatório
store
boolean
obrigatório
text
object
obrigatório
tool_choice
obrigatório

Modo de escolha de ferramenta: Seleciona como o modelo decide o uso das ferramentas. Use nenhum, automático ou necessário.

Opções disponíveis:
none,
auto,
required
tools
(Function tool definition · object | File search tool definition · object | Computer use tool definition · object | Web search tool definition · object | any | Code interpreter tool definition · object | Image generation tool definition · object | Local shell tool definition · object | Shell tool definition · object | Custom tool definition · object | Web search preview tool definition · object | Hosted tool definition · object | Sleep tool definition · object | History tool definition · object | null)[]
obrigatório

Definição da ferramenta de função: Define uma ferramenta de função chamável. Forneça um nome de ferramenta e um esquema de parâmetros, com descrição opcional e carregamento diferido.

truncation
enum<string>
obrigatório
Opções disponíveis:
auto,
disabled
usage
object
obrigatório
user
string | null
obrigatório
conversation
object
output_text
string
prompt
object
prompt_cache_key
string
reasoning
object
safety_identifier
string
service_tier
enum<string>
Opções disponíveis:
auto,
default,
flex,
priority
temperature
number
Intervalo obrigatório: 0 <= x <= 2
presence_penalty
number
frequency_penalty
number
top_logprobs
integer
Intervalo obrigatório: 0 <= x <= 20
top_p
number
Intervalo obrigatório: 0 <= x <= 1
context_management
object[]