Pular para o conteúdo principal

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

Use o modo background quando uma resposta pode levar muito tempo para ser concluída, como uso de ferramentas em múltiplas etapas ou tarefas de geração extensas. A API retorna imediatamente com uma resposta em fila, e você recupera o resultado depois por meio de polling ou streaming.

Criar uma resposta em segundo plano

Defina background como true e stream como false. A API cria a resposta, inicia o processamento de forma assíncrona e retorna imediatamente com status: "queued".
mka1 llm responses create \
  --background \
  --model meetkai:functionary-pt \
  --input '"Write a 500-word essay about the history of the internet."' \
  -H 'X-On-Behalf-Of: <end-user-id>'
Salve o id para recuperar o resultado depois.

Consulte o resultado (Polling)

Chame GET /responses/{response_id} até que o status atinja um estado terminal.
mka1 llm responses get --response-id resp_abc123
Uma resposta passa pelos seguintes status durante o processamento:
StatusSignificado
queuedA solicitação está aguardando para ser processada
in_progressO modelo está gerando a saída
completedA geração foi concluída com sucesso
failedOcorreu um erro durante o processamento
incompleteA resposta foi interrompida (ex: limite de tokens)
cancelledA resposta foi cancelada antes da conclusão
Faça polling em um intervalo razoável (por exemplo, a cada dois segundos) até que o status não seja mais queued ou in_progress.

Faça streaming de eventos de uma resposta em segundo plano

Se você deseja atualizações em tempo real em vez de polling, recupere a resposta com stream definido como true. A API retorna eventos enviados pelo servidor à medida que a resposta é processada.
mka1 llm responses get --response-id resp_abc123 --stream
Os eventos chegam à medida que são produzidos. O stream é encerrado após um evento terminal como response.completed ou response.failed. Se a resposta já estiver concluída quando você chamar este endpoint, você receberá um único evento terminal com a resposta final e o stream será encerrado imediatamente.

Faça streaming de eventos no momento da criação

Você também pode fazer streaming de eventos diretamente ao criar uma resposta em segundo plano, definindo tanto background quanto stream como true.
mka1 llm responses create \
  --background \
  --stream \
  --model meetkai:functionary-pt \
  --input '"Write a 500-word essay about the history of the internet."'
O primeiro evento é response.queued, seguido por response.created, eventos intermediários como response.output_text.delta, e finalmente um evento terminal como response.completed. Isso é útil quando você deseja mostrar o progresso em uma interface enquanto o trabalho é executado em segundo plano. Se o cliente se desconectar, a resposta continuará sendo processada e poderá ser recuperada posteriormente.

Cancelar uma resposta em segundo plano

Se você não precisar mais do resultado, cancele uma resposta em fila ou em andamento.
mka1 llm responses cancel --response-id resp_abc123
O status da resposta muda para cancelled. Respostas que já foram concluídas ou falharam não podem ser canceladas.

Próximos passos