Validar el enrutamiento automático

Utiliza auto_routing cuando quieras que el gateway elija entre variantes cuantizadas, MoE y densas según la complejidad de la solicitud. Cuando las variantes hermanas aún no están registradas, usa auto_routing_debug para verificar la decisión de enrutamiento en sí. La metadata de la respuesta incluirá:

routed_model
auto_routing_debug

auto_routing_debug es una cadena JSON compacta con el modelo solicitado, el nivel seleccionado, el esfuerzo de razonamiento, el puntaje y las razones.

Ejecutar la validación

La verificación en producción del 31 de marzo de 2026 utilizó el endpoint de Responses directamente con un modelo fijo y una bandera de depuración opcional.

bash

curl https://apigw.mka1.com/api/v1/llm/responses \
  --request POST \
  --header 'Content-Type: application/json' \
  --header 'Authorization: Bearer <mka1-api-key>' \
  --data '{
    "model": "meetkai:functionary-pt",
    "input": "Summarize this in one sentence: The quick brown fox jumps over the lazy dog.",
    "auto_routing": true,
    "auto_routing_debug": true,
    "max_output_tokens": 64
  }'

Si el despliegue está en vivo, la metadata de la respuesta incluye un payload como este:

{
  "metadata": {
    "routed_model": "meetkai:functionary-pt",
    "auto_routing_debug": "{\"requested_model\":\"meetkai:functionary-pt\",\"routed_model\":\"meetkai:functionary-pt\",\"desired_tier\":\"quantized\",\"reasoning_effort\":\"minimal\",\"score\":-3,\"reasons\":[\"short prompt\",\"simple transform task\"]}"
  }
}

El routed_model aún puede ser igual al modelo solicitado si no existe una familia hermana compatible en producción todavía. Eso no significa que la heurística haya fallado. La prueba está en desired_tier, reasoning_effort, score y reasons dentro de auto_routing_debug.

Método de prueba

La verificación en producción utilizó seis solicitudes Responses contra https://apigw.mka1.com/api/v1/llm/responses. Cada solicitud estableció:

model: "meetkai:functionary-pt"
auto_routing: true
auto_routing_debug: true

La matriz cubrió:

Prompt corto de transformación en inglés
Prompt de salida estructurada de longitud media
Prompt largo de análisis de incidentes
Prompt forzado de uso de herramienta
Prompt corto de transformación en portugués
Prompt largo de análisis de incidentes en portugués

Para cada respuesta, la validación registró:

Estado HTTP
metadata.routed_model
metadata.auto_routing_debug parseado
reasoning.effort efectivo

Resultados en producción en vivo

Estos fueron los resultados observados en producción el 31 de marzo de 2026 después del despliegue del PR 321:

Caso de prueba	Nivel esperado	Nivel observado	Esfuerzo de razonamiento	Puntaje	Razones clave
`simple_summary`	`quantized`	`quantized`	`minimal`	`-3`	`short prompt`, `simple transform task`
`structured_analysis_json`	`moe`	`moe`	`low`	`2`	`structured output requested`, `short prompt`, `complex reasoning markers in prompt`
`complex_incident_plan`	`dense`	`dense`	`high`	`6`	`large max_output_tokens`, `long prompt`, `complex reasoning markers in prompt`
`forced_code_interpreter`	`dense`	`dense`	`high`	`5`	`high-agency tools enabled`, `tool use required`
`portuguese_simple_transform`	`quantized`	`quantized`	`minimal`	`-3`	`short prompt`, `simple transform task`
`portuguese_complex_incident`	`dense`	`dense`	`high`	`5`	`large max_output_tokens`, `complex reasoning markers in prompt`

Las seis solicitudes devolvieron 200 OK. Las seis respuestas incluyeron auto_routing_debug. El nivel observado coincidió con el nivel esperado en todos los casos.

Fragmentos de respuesta en crudo

Los siguientes ejemplos están adaptados del registro de producción en vivo.