Este benchmark mide qué tan rápido comienza el streaming en la API pública de Respuestas MKA1. UtilizaDocumentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
POST /api/v1/llm/responses en https://apigw.mka1.com/api/v1/llm/responses con stream: true y el modelo meetkai:functionary-pt.
El objetivo es simple:
medir el tiempo desde que se envía la solicitud hasta que el primer token de texto transmitido llega al cliente.
Resumen de resultados
Ejecución del benchmark:2026-03-31
| Métrica | Valor |
|---|---|
| Modelo | meetkai:functionary-pt |
| Endpoint | POST /api/v1/llm/responses |
| Solicitudes de calentamiento | 5 |
| Solicitudes medidas | 100 |
| Solicitudes fallidas | 0 |
| TTFT p50 | 311.13 ms |
| TTFT p95 | 608.49 ms |
| TTFT p99 | 681.29 ms |
| TTFT máx | 695.86 ms |
| Primer evento SSE p95 | 70.69 ms |
| Encabezados de respuesta p95 | 70.42 ms |
1 segundo en el percentil 95 para el tiempo hasta el primer token de texto transmitido.
Qué significa TTFT en este benchmark
Para este benchmark, TTFT significa:- el cliente inicia un temporizador inmediatamente antes de enviar la solicitud HTTP
- el cliente abre el stream SSE
- el temporizador se detiene cuando se recibe el primer delta de texto transmitido no vacío
response.reasoning_text.deltaresponse.output_text.delta
- encabezados de respuesta: cuando se retorna la respuesta HTTP inicial
- primer evento SSE: cuando llega el primer frame SSE, sin importar el contenido
Configuración del benchmark
La ejecución en vivo utilizó el siguiente perfil de solicitud:- URL base:
https://apigw.mka1.com - endpoint:
POST /api/v1/llm/responses - autenticación:
Authorization: Bearer <mka1-api-key> - encabezado de usuario final:
X-On-Behalf-Of: ttft-benchmark-user - modelo:
meetkai:functionary-pt - prompt:
Reply with exactly the text OK and nothing else. stream: truetemperature: 0max_output_tokens: 64- calentamientos:
5 - solicitudes medidas:
100 - concurrencia:
1 - tiempo de espera de la solicitud:
45s
apigw.mka1.com, no solo el tiempo de procesamiento del servidor.
Forma de la solicitud
curl para poder detectar el momento exacto de llegada del primer token de texto transmitido.
Interpretación
Esta ejecución muestra tres capas útiles de latencia:- la conexión y el gateway devolvieron los encabezados rápidamente, con p95 en
70.42 ms - el primer frame SSE llegó en p95
70.69 ms - el primer token de texto transmitido llegó en p95
608.49 ms
1 segundo en p95 para este modelo y perfil de solicitud.