auto_routing quando você quiser que o gateway escolha entre variantes quantizadas, MoE e densas com base na complexidade da solicitação.
Quando variantes irmãs ainda não estiverem registradas, use auto_routing_debug para verificar a própria decisão de roteamento.
Os metadados da resposta incluirão:
routed_modelauto_routing_debug
auto_routing_debug é uma string JSON compacta com o modelo solicitado, nível selecionado, esforço de raciocínio, pontuação e motivos.
Execute a validação
A verificação de produção em 31 de março de 2026 utilizou o endpoint Responses diretamente com um modelo fixo e uma flag de depuração opt-in.bash
routed_model ainda pode ser igual ao modelo solicitado se nenhuma família irmã compatível existir em produção ainda.
Isso não significa que a heurística falhou.
A prova está em desired_tier, reasoning_effort, score e reasons em auto_routing_debug.
Método de teste
A checagem de produção utilizou seis requisições Responses contrahttps://apigw.mka1.com/api/v1/llm/responses.
Cada requisição definiu:
model: "meetkai:functionary-pt"auto_routing: trueauto_routing_debug: true
- Prompt curto em inglês para transformação
- Prompt médio para saída estruturada
- Prompt longo para análise de incidente
- Prompt forçado de uso de ferramenta
- Prompt curto em português para transformação
- Prompt longo em português para análise de incidente
- Status HTTP
metadata.routed_modelmetadata.auto_routing_debuganalisadoreasoning.effortefetivo
Resultados ao vivo em produção
Estes foram os resultados observados em produção em 31 de março de 2026 após o PR 321 ser implantado:| Caso de teste | Nível esperado | Nível observado | Esforço de raciocínio | Pontuação | Motivos principais |
|---|---|---|---|---|---|
simple_summary | quantized | quantized | minimal | -3 | short prompt, simple transform task |
structured_analysis_json | moe | moe | low | 2 | structured output requested, short prompt, complex reasoning markers in prompt |
complex_incident_plan | dense | dense | high | 6 | large max_output_tokens, long prompt, complex reasoning markers in prompt |
forced_code_interpreter | dense | dense | high | 5 | high-agency tools enabled, tool use required |
portuguese_simple_transform | quantized | quantized | minimal | -3 | short prompt, simple transform task |
portuguese_complex_incident | dense | dense | high | 5 | large max_output_tokens, complex reasoning markers in prompt |
200 OK.
Todas as seis respostas incluíram auto_routing_debug.
O nível observado correspondeu ao nível esperado em todos os casos.
Trechos brutos de resposta
Os exemplos abaixo foram adaptados do log de produção ao vivo.Prompt curto de transformação
Requisição:Prompt para saída estruturada
Requisição:Prompt longo para análise de incidente
Requisição:Prompt forçado de uso de ferramenta
Requisição:Prompt de transformação em português
Requisição:Prompt de análise de incidente em português
Requisição:Interprete o resultado
Use esta lista de verificação ao validar um deployment:- Confirme que a resposta inclui
metadata.auto_routing_debug. - Analise a string JSON e inspecione
desired_tier. - Verifique se
reasoning_effortcorresponde ao nível de complexidade esperado. - Verifique se os
reasonscorrespondem às características do prompt que você pretendia acionar. - Se variantes irmãs existirem, confirme também que
routed_modelmuda para a irmã esperada.
auto_routing_debug estiver ausente, a imagem da API implantada provavelmente ainda não inclui o recurso.
Notas
auto_routing_debugé destinado à validação e checagens de rollout. É opt-in e não deve ser ativado por padrão para o tráfego normal de produção.auto_routing_debugestá disponível atualmente na API de Responses.- Heurísticas para prompts em português estão incluídas na lógica de roteamento em produção atual, então prompts curtos de transformação e prompts complexos de análise de incidente podem ser validados tanto em inglês quanto em português.