from openapi import SDK
with SDK(
bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:
res = sdk.llm.responses.create(model="meetkai:functionary-urdu-mini-pak", input="What is the capital of France?", stream=False, store=True, background=False, parallel_tool_calls=True, max_tool_calls=30, truncation="auto", service_tier="auto")
with res as event_stream:
for event in event_stream:
# handle event
print(event, flush=True){
"id": "resp_abc123",
"object": "response",
"created_at": 1735689600,
"completed_at": 1735689601,
"status": "completed",
"error": null,
"incomplete_details": null,
"background": false,
"instructions": null,
"max_output_tokens": null,
"max_tool_calls": 30,
"metadata": {},
"model": "meetkai:functionary-urdu-mini-pak",
"output": [
{
"type": "message",
"id": "msg_abc123",
"role": "assistant",
"content": [
{
"type": "output_text",
"text": "The capital of France is Paris.",
"annotations": []
}
],
"status": "completed"
}
],
"output_text": "The capital of France is Paris.",
"parallel_tool_calls": true,
"previous_response_id": null,
"reasoning": {
"effort": null,
"summary": null
},
"service_tier": "auto",
"store": true,
"text": {
"format": {
"type": "text"
},
"verbosity": "medium"
},
"tool_choice": "auto",
"tools": [],
"truncation": "auto",
"usage": {
"input_tokens": 8,
"input_tokens_details": {
"cached_tokens": 0
},
"output_tokens": 7,
"output_tokens_details": {
"reasoning_tokens": 0
},
"total_tokens": 15
},
"user": null
}Cria uma nova resposta de agente de IA usando modelos de linguagem avançados com capacidades de uso autônomo de ferramentas.
from openapi import SDK
with SDK(
bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:
res = sdk.llm.responses.create(model="meetkai:functionary-urdu-mini-pak", input="What is the capital of France?", stream=False, store=True, background=False, parallel_tool_calls=True, max_tool_calls=30, truncation="auto", service_tier="auto")
with res as event_stream:
for event in event_stream:
# handle event
print(event, flush=True){
"id": "resp_abc123",
"object": "response",
"created_at": 1735689600,
"completed_at": 1735689601,
"status": "completed",
"error": null,
"incomplete_details": null,
"background": false,
"instructions": null,
"max_output_tokens": null,
"max_tool_calls": 30,
"metadata": {},
"model": "meetkai:functionary-urdu-mini-pak",
"output": [
{
"type": "message",
"id": "msg_abc123",
"role": "assistant",
"content": [
{
"type": "output_text",
"text": "The capital of France is Paris.",
"annotations": []
}
],
"status": "completed"
}
],
"output_text": "The capital of France is Paris.",
"parallel_tool_calls": true,
"previous_response_id": null,
"reasoning": {
"effort": null,
"summary": null
},
"service_tier": "auto",
"store": true,
"text": {
"format": {
"type": "text"
},
"verbosity": "medium"
},
"tool_choice": "auto",
"tools": [],
"truncation": "auto",
"usage": {
"input_tokens": 8,
"input_tokens_details": {
"cached_tokens": 0
},
"output_tokens": 7,
"output_tokens_details": {
"reasoning_tokens": 0
},
"total_tokens": 15
},
"user": null
}Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Esquema de solicitação para criar uma nova resposta de agente. Configura o modelo do agente, entrada, ferramentas, formato de saída e comportamento. Suporta execução tanto em primeiro plano (bloqueante) quanto em segundo plano (assíncrona) com streaming opcional.
O ID do modelo a ser usado para gerar a resposta.
A entrada do usuário a ser enviada ao agente. Pode ser uma string de texto simples para consultas básicas, ou um array de objetos de itens contendo texto, imagens, arquivos ou áudio para interações multimodais. Este é o conteúdo principal ao qual o agente irá responder.
Instruções do sistema ou do desenvolvedor inseridas no contexto do modelo antes da entrada do usuário. Use isso para guiar o comportamento do agente, definir a personalidade, estabelecer restrições ou fornecer conhecimento específico do domínio. Funciona como uma mensagem de sistema persistente para esta resposta.
A conversa à qual esta resposta pertence. Pode ser uma string de ID de conversa ou um objeto de conversa. Usado para manter o contexto e o histórico em várias interações com agentes. Opcional - omita para interações únicas.
O ID único de uma resposta anterior para continuar a partir de. Usado para conversas de múltiplos turnos para manter contexto e histórico. O agente terá acesso a todas as interações anteriores na cadeia.
Referência a um modelo de prompt a ser usado para esta resposta, junto com variáveis a serem substituídas. Permite usar modelos de prompt predefinedos e versionados em vez de instruções inline. O sistema de modelos suporta interpolação de variáveis.
Show child attributes
Campos adicionais para incluir na saída da resposta. Permite solicitar dados específicos aninhados, como fontes de pesquisa na web, saídas de interpretadores de código, capturas de tela de computadores, resultados de pesquisa de arquivos, imagens de entrada, logprobs de saída ou conteúdo de raciocínio. Esses campos podem ter implicações em desempenho ou custo.
web_search_call.action.sources, code_interpreter_call.outputs, computer_call_output.output.image_url, file_search_call.results, message.input_image.image_url, message.output_text.logprobs, reasoning.encrypted_content Opções de configuração para saída de texto do modelo. Inclui formato de resposta (texto, objeto JSON, esquema JSON) e nível de detalhamento (baixo, médio, alto). Use isso para controlar a estrutura e o nível de detalhe da saída.
Show child attributes
Se definido como verdadeiro, os dados da resposta serão transmitidos usando Eventos Enviados pelo Servidor (SSE) para atualizações em tempo real à medida que o agente gera a resposta. Quando falso, a resposta é retornada como um único objeto completo. O padrão é falso.
Opções adicionais para configurar o comportamento de streaming quando o streaming está ativado.
Show child attributes
Se deve armazenar a resposta gerada para recuperação posterior. Quando verdadeiro, a resposta é salva e pode ser recuperada via GET /responses/{id}. Quando falso, a resposta não é persistida após a geração. O padrão é verdadeiro.
Executar a resposta do modelo em segundo plano de forma assíncrona. Quando verdadeiro, a solicitação retorna imediatamente com um ID de resposta enquanto o agente processa em segundo plano. Use GET /responses/{id} para recuperar os resultados posteriormente. Quando falso, a solicitação bloqueia até a conclusão. O padrão é falso.
URL para receber notificações de webhook sobre mudanças de status (em fila, em progresso, concluído, falhado, incompleto). Válido apenas quando background=true. Se fornecido sem background=true, a requisição será rejeitada.
Segredo opcional para assinatura HMAC-SHA256 de cargas úteis de webhook. Quando fornecido, os webhooks incluem um cabeçalho X-Webhook-Signature com a assinatura. Requer que webhook_url esteja definido.
16 - 256Array de definições de ferramentas que o agente pode usar durante a geração de respostas. Suporta ferramentas integradas (busca na web, busca em arquivos, interpretador de código, uso de computador, geração de imagem) e ferramentas personalizadas (funções, MCP, shell local). Cada definição de ferramenta especifica seu tipo e configuração.
Definição da ferramenta de função: Define uma ferramenta de função chamada. Forneça um nome para a ferramenta e um esquema de parâmetros, com descrição opcional e carregamento diferido.
Show child attributes
Controla como o agente seleciona quais ferramentas usar. Pode ser 'nenhuma' (sem ferramentas), 'automático' (o modelo decide), 'obrigatório' (deve usar ferramentas) ou um objeto de seleção de ferramenta específico. Use isso para forçar ou prevenir o uso de ferramentas.
none, auto, required Se deve permitir que o agente execute várias chamadas de ferramentas em paralelo. Quando verdadeiro, o agente pode fazer chamadas de ferramentas simultâneas para maior eficiência. Quando falso, as ferramentas são chamadas sequencialmente. O padrão é verdadeiro para melhor desempenho.
O número total máximo de chamadas de ferramentas que o agente pode fazer durante esta resposta. Útil para controlar o tempo de execução e evitar loops infinitos. Aplica-se a todas as ferramentas internas, como pesquisa na web, pesquisa de arquivos, interpretador de código, etc. Deve ser um inteiro positivo entre 1 e 300. O padrão é 30.
1 <= x <= 300Opções de configuração para modelos de raciocínio. Controla o nível de esforço de raciocínio (mínimo, baixo, médio, alto) e a verbosidade do resumo (automático, conciso, detalhado). Apenas aplicável a modelos específicos com capacidade de raciocínio.
Show child attributes
Quando verdadeiro, o gateway inspeciona a complexidade da solicitação e roteia automaticamente entre variantes quantizadas, MoE e densas dentro da família de modelos solicitada.
Extensão de gateway. Quando verdadeiro junto com auto_routing, os metadados da resposta incluem uma decisão de roteamento serializada compacta, para que você possa inspecionar o nível de destino inferido, mesmo quando nenhuma variante irmã compatível está disponível.
O número máximo de tokens que o modelo pode gerar em sua saída. Define um limite superior para controlar custos e o comprimento da resposta. A saída real pode ser mais curta se o modelo terminar naturalmente. Deve ser um número inteiro positivo.
1 <= x <= 9007199254740991Controla a aleatoriedade na saída do modelo. Valores mais altos (por exemplo, 1.5-2.0) tornam a saída mais aleatória e criativa, enquanto valores mais baixos (por exemplo, 0.0-0.5) a tornam mais focada e determinística. Deve estar entre 0 e 2.
0 <= x <= 2Parâmetro de amostragem nucleus. O modelo considera apenas os tokens com a probabilidade cumulativa top_p. Valores mais baixos (por exemplo, 0,1) tornam a saída mais focada, valores mais altos (por exemplo, 0,9) permitem mais diversidade. Deve estar entre 0 e 1. Alternativa à temperatura.
0 <= x <= 1O número de tokens mais prováveis a serem retornados em cada posição, juntamente com suas probabilidades logarítmicas. Deve estar entre 0 e 20. Útil para entender a confiança do modelo e explorar saídas alternativas.
0 <= x <= 20A estratégia de truncamento para lidar com entradas que excedem a janela de contexto do modelo. 'auto' trunca automaticamente mensagens antigas para se ajustar, 'desabilitado' retorna um erro se o contexto for muito longo. O padrão é 'auto'.
auto, disabled Estratégias de gerenciamento de contexto a serem aplicadas durante a geração de respostas. Suporta compactação, que resume o histórico de conversas mais antigas quando o contexto ultrapassa um limite de tokens.
1Show child attributes
Penaliza novos tokens com base em sua aparição no texto até agora. Valores mais altos aumentam a probabilidade do modelo de falar sobre novos tópicos.
-2 <= x <= 2Penaliza novos tokens com base em sua frequência no texto até agora. Valores mais altos diminuem a probabilidade do modelo repetir a mesma linha exatamente.
-2 <= x <= 2Especifica o nível de processamento para atender à solicitação. 'auto' permite que o sistema escolha, 'default' utiliza o processamento padrão, 'flex' permite agendamento flexível para prioridade inferior, 'priority' proporciona processamento mais rápido. O padrão é 'auto'.
auto, default, flex, priority Um identificador estável usado para armazenar em cache prompts e contexto. Ajuda a reduzir custos e latência ao reutilizar o processamento de prompts em cache. Útil para prompts que são usados repetidamente com pequenas variações.
Um identificador estável usado para ajudar a detectar e prevenir violações de políticas em várias solicitações. Ajuda o sistema a identificar padrões de abuso ou uso indevido. Útil para rastreamento de conformidade e monitoramento de segurança.
Show child attributes
Tipos de saída que o modelo deve gerar. O padrão é ['texto']. Inclua 'áudio' para receber uma reprodução em áudio da resposta em texto via TTS.
text, audio Configuração de saída de áudio. Opcional quando as modalidades incluem 'áudio'; valores padrão são aplicados se omitidos.
Show child attributes
DESATUALIZADO: Um identificador único para o usuário final. Use safety_identifier para detecção de violação de política e prompt_cache_key para cache em vez disso. Este campo é mantido para compatibilidade com versões anteriores.
Resposta bem-sucedida - retorna eventos de streaming (SSE) ou um objeto de resposta completo (JSON) dependendo do parâmetro de stream.
O status geral da geração de resposta. 'completo' significa terminado com sucesso, 'falhou' significa que ocorreu um erro, 'em_andamento' significa atualmente em processamento, 'cancelado' significa cancelado pelo usuário, 'em_fila' significa esperando para começar, 'incompleto' significa conclusão parcial.
completed, failed, in_progress, cancelled, queued, incomplete Show child attributes
Show child attributes
-9007199254740991 <= x <= 9007199254740991null
-9007199254740991 <= x <= 9007199254740991Show child attributes
Mensagem de entrada: Uma mensagem com função e conteúdo. Use isso para turnos de usuário, assistente, sistema ou desenvolvedor em entradas estruturadas.
Show child attributes
Show child attributes
Modo de escolha da ferramenta: Seleciona como o modelo decide o uso da ferramenta. Use nenhum, automático ou necessário.
none, auto, required Definição da ferramenta de função: Define uma ferramenta de função chamada. Forneça um nome para a ferramenta e um esquema de parâmetros, com descrição opcional e carregamento diferido.
Show child attributes
auto, disabled Show child attributes
Show child attributes
Show child attributes
Show child attributes
auto, default, flex, priority 0 <= x <= 20 <= x <= 200 <= x <= 1Show child attributes
Esta página foi útil?