auto_routing quando quiser que o gateway escolha entre variantes quantized, MoE e dense com base na complexidade da requisição.
Quando variantes irmãs ainda não estiverem registradas, use auto_routing_debug para validar a própria decisão de roteamento.
Os metadados da resposta vão incluir:
routed_modelauto_routing_debug
auto_routing_debug é uma string JSON compacta com o modelo solicitado, o tier selecionado, o esforço de raciocínio, a pontuação e os motivos.
Execute a validação
A verificação em produção feita em 31 de março de 2026 usou o endpoint de Responses diretamente com um modelo fixo e uma flag de debug opt-in.bash
routed_model ainda pode ser igual ao modelo solicitado se uma família irmã compatível ainda não existir em produção.
Isso não significa que a heurística falhou.
A prova está em desired_tier, reasoning_effort, score e reasons dentro de auto_routing_debug.
Método de teste
A verificação em produção usou seis requisições de Responses contrahttps://apigw.mka1.com/api/v1/llm/responses.
Cada requisição definiu:
model: "meetkai:functionary-pt"auto_routing: trueauto_routing_debug: true
- Prompt curto de transformação em inglês
- Prompt médio com saída estruturada
- Prompt longo de análise de incidente
- Prompt com uso forçado de ferramenta
- Prompt curto de transformação em português
- Prompt longo de análise de incidente em português
- status HTTP
metadata.routed_modelmetadata.auto_routing_debugjá parseadoreasoning.effortefetivo
Resultados ao vivo em produção
Estes foram os resultados observados em produção em 31 de março de 2026 depois do deploy do PR 321:| Caso de teste | Tier esperado | Tier observado | Esforço de raciocínio | Pontuação | Motivos principais |
|---|---|---|---|---|---|
simple_summary | quantized | quantized | minimal | -3 | short prompt, simple transform task |
structured_analysis_json | moe | moe | low | 2 | structured output requested, short prompt, complex reasoning markers in prompt |
complex_incident_plan | dense | dense | high | 6 | large max_output_tokens, long prompt, complex reasoning markers in prompt |
forced_code_interpreter | dense | dense | high | 5 | high-agency tools enabled, tool use required |
portuguese_simple_transform | quantized | quantized | minimal | -3 | short prompt, simple transform task |
portuguese_complex_incident | dense | dense | high | 5 | large max_output_tokens, complex reasoning markers in prompt |
200 OK.
As seis respostas incluíram auto_routing_debug.
O tier observado correspondeu ao tier esperado em todos os casos.
Trechos brutos de resposta
Os exemplos abaixo foram adaptados do log de produção ao vivo.Prompt curto de transformação
Request:Prompt com saída estruturada
Request:Prompt longo de análise de incidente
Request:Prompt com uso forçado de ferramenta
Request:Prompt de transformação em português
Request:Prompt de análise de incidente em português
Request:Interprete o resultado
Use este checklist ao validar uma implantação:- Confirme que a resposta inclui
metadata.auto_routing_debug. - Faça o parse da string JSON e inspecione
desired_tier. - Verifique se
reasoning_effortcorresponde ao nível de complexidade esperado. - Verifique se
reasonscorrespondem às características do prompt que você queria acionar. - Se variantes irmãs existirem, confirme também que
routed_modelmuda para a irmã esperada.
auto_routing_debug estiver ausente, a imagem de API implantada provavelmente ainda não inclui o recurso.
Observações
auto_routing_debugé voltado para validação e checks de rollout. Ele é opt-in e não deve ser habilitado por padrão no tráfego normal de produção.auto_routing_debugestá disponível no momento na Responses API.- As heurísticas para prompts em português já estão incluídas na lógica atual de roteamento em produção, então prompts curtos de transformação e prompts complexos de análise de incidente podem ser validados tanto em inglês quanto em português.