Este benchmark mede quão rapidamente o streaming começa na API pública de Respostas MKA1. Ele utilizaDocumentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
POST /api/v1/llm/responses em https://apigw.mka1.com/api/v1/llm/responses com stream: true e modelo meetkai:functionary-pt.
O objetivo é simples:
medir o tempo desde o envio da requisição até o primeiro token de texto transmitido chegar ao cliente.
Resumo dos resultados
Execução do benchmark:2026-03-31
| Métrica | Valor |
|---|---|
| Modelo | meetkai:functionary-pt |
| Endpoint | POST /api/v1/llm/responses |
| Requisições de aquecimento | 5 |
| Requisições medidas | 100 |
| Requisições com falha | 0 |
| TTFT p50 | 311.13 ms |
| TTFT p95 | 608.49 ms |
| TTFT p99 | 681.29 ms |
| TTFT máx | 695.86 ms |
| Primeiro evento SSE p95 | 70.69 ms |
| Cabeçalhos de resposta p95 | 70.42 ms |
1 segundo no percentil 95 para o tempo até o primeiro token de texto transmitido.
O que TTFT significa neste benchmark
Para este benchmark, TTFT significa:- o cliente inicia um cronômetro imediatamente antes do envio da requisição HTTP
- o cliente abre o stream SSE
- o cronômetro para quando o primeiro delta de texto transmitido não vazio é recebido
response.reasoning_text.deltaresponse.output_text.delta
- cabeçalhos de resposta: quando a resposta HTTP inicial é retornada
- primeiro evento SSE: quando o primeiro frame SSE chega, independentemente do conteúdo
Configuração do benchmark
A execução ao vivo utilizou o seguinte perfil de requisição:- URL base:
https://apigw.mka1.com - endpoint:
POST /api/v1/llm/responses - autenticação:
Authorization: Bearer <mka1-api-key> - cabeçalho de usuário final:
X-On-Behalf-Of: ttft-benchmark-user - modelo:
meetkai:functionary-pt - prompt:
Reply with exactly the text OK and nothing else. stream: truetemperature: 0max_output_tokens: 64- aquecimentos:
5 - requisições medidas:
100 - concorrência:
1 - timeout da requisição:
45s
apigw.mka1.com, não apenas o tempo de processamento no servidor.
Formato da requisição
curl, para poder detectar o momento exato da chegada do primeiro token de texto transmitido.
Interpretação
Esta execução mostra três camadas úteis de latência:- a conexão e o gateway retornaram os cabeçalhos rapidamente, com p95 em
70.42 ms - o primeiro frame SSE chegou em p95
70.69 ms - o primeiro token de texto transmitido chegou em p95
608.49 ms
1 segundo em p95 para este modelo e perfil de requisição.