auto_routing cuando quieras que el gateway elija entre variantes cuantizadas, MoE y densas según la complejidad de la solicitud.
Cuando las variantes hermanas aún no están registradas, usa auto_routing_debug para verificar la decisión de enrutamiento en sí.
La metadata de la respuesta incluirá:
routed_modelauto_routing_debug
auto_routing_debug es una cadena JSON compacta con el modelo solicitado, el nivel seleccionado, el esfuerzo de razonamiento, la puntuación y los motivos.
Ejecutar la validación
La verificación en producción del 31 de marzo de 2026 utilizó el endpoint de Responses directamente con un modelo fijo y una bandera de depuración opcional.bash
routed_model aún puede ser igual al modelo solicitado si no existe todavía una familia hermana compatible en producción.
Eso no significa que la heurística haya fallado.
La prueba está en los campos desired_tier, reasoning_effort, score y reasons dentro de auto_routing_debug.
Método de prueba
La comprobación en producción utilizó seis solicitudes Responses contrahttps://apigw.mka1.com/api/v1/llm/responses.
Cada solicitud estableció:
model: "gpt-5"auto_routing: trueauto_routing_debug: true
- Prompt de transformación corto en inglés
- Prompt de salida estructurada de longitud media
- Prompt largo de análisis de incidentes
- Prompt forzado de uso de herramienta
- Prompt de transformación corto en portugués
- Prompt largo de análisis de incidentes en portugués
- Estado HTTP
metadata.routed_modelmetadata.auto_routing_debuganalizadoreasoning.effortefectivo
Resultados en producción en vivo
Estos fueron los resultados observados en producción el 31 de marzo de 2026 después del despliegue del PR 321:| Caso de prueba | Nivel esperado | Nivel observado | Esfuerzo de razonamiento | Puntuación | Motivos clave |
|---|---|---|---|---|---|
simple_summary | quantized | quantized | minimal | -3 | short prompt, simple transform task |
structured_analysis_json | moe | moe | low | 2 | structured output requested, short prompt, complex reasoning markers in prompt |
complex_incident_plan | dense | dense | high | 6 | large max_output_tokens, long prompt, complex reasoning markers in prompt |
forced_code_interpreter | dense | dense | high | 5 | high-agency tools enabled, tool use required |
portuguese_simple_transform | quantized | quantized | minimal | -3 | short prompt, simple transform task |
portuguese_complex_incident | dense | dense | high | 5 | large max_output_tokens, complex reasoning markers in prompt |
200 OK.
Las seis respuestas incluyeron auto_routing_debug.
El nivel observado coincidió con el nivel esperado en todos los casos.
Fragmentos de respuesta en crudo
Los siguientes ejemplos están adaptados del registro de producción en vivo.Prompt de transformación corto
Solicitud:Prompt de salida estructurada
Solicitud:Prompt largo de análisis de incidentes
Solicitud:Prompt forzado de uso de herramienta
Solicitud:Prompt de transformación en portugués
Solicitud:Prompt de análisis de incidentes en portugués
Solicitud:Interpretar el resultado
Utiliza esta lista de verificación al validar un despliegue:- Confirma que la respuesta incluya
metadata.auto_routing_debug. - Analiza la cadena JSON e inspecciona
desired_tier. - Verifica que
reasoning_effortcoincida con el nivel de complejidad esperado. - Verifica que los
reasonscoincidan con las características del prompt que pretendías activar. - Si existen variantes hermanas, también confirma que
routed_modelcambie al hermano esperado.
auto_routing_debug, probablemente la imagen API desplegada aún no incluye la funcionalidad.
Notas
auto_routing_debugestá destinado a validación y comprobaciones de despliegue. Es opcional y no debe habilitarse por defecto para tráfico normal de producción.auto_routing_debugestá disponible actualmente en la API de Responses.- Las heurísticas para prompts en portugués están incluidas en la lógica de enrutamiento de producción actual, por lo que los prompts cortos de transformación y los prompts complejos de análisis de incidentes pueden validarse tanto en inglés como en portugués.