Saltar al contenido principal
POST
/
api
/
v1
/
llm
/
responses
Python (SDK)
from openapi import SDK


with SDK(
    bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:

    res = sdk.llm.responses.create(model="meetkai:functionary-urdu-mini-pak", input="What is the capital of France?", stream=False, store=True, background=False, parallel_tool_calls=True, max_tool_calls=30, truncation="auto", service_tier="auto")

    with res as event_stream:
        for event in event_stream:
            # handle event
            print(event, flush=True)
{
  "id": "resp_abc123",
  "object": "response",
  "created_at": 1735689600,
  "completed_at": 1735689601,
  "status": "completed",
  "error": null,
  "incomplete_details": null,
  "background": false,
  "instructions": null,
  "max_output_tokens": null,
  "max_tool_calls": 30,
  "metadata": {},
  "model": "meetkai:functionary-urdu-mini-pak",
  "output": [
    {
      "type": "message",
      "id": "msg_abc123",
      "role": "assistant",
      "content": [
        {
          "type": "output_text",
          "text": "The capital of France is Paris.",
          "annotations": []
        }
      ],
      "status": "completed"
    }
  ],
  "output_text": "The capital of France is Paris.",
  "parallel_tool_calls": true,
  "previous_response_id": null,
  "reasoning": {
    "effort": null,
    "summary": null
  },
  "service_tier": "auto",
  "store": true,
  "text": {
    "format": {
      "type": "text"
    },
    "verbosity": "medium"
  },
  "tool_choice": "auto",
  "tools": [],
  "truncation": "auto",
  "usage": {
    "input_tokens": 8,
    "input_tokens_details": {
      "cached_tokens": 0
    },
    "output_tokens": 7,
    "output_tokens_details": {
      "reasoning_tokens": 0
    },
    "total_tokens": 15
  },
  "user": null
}

Autorizaciones

Authorization
string
header
requerido

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Cuerpo

application/json

Esquema de solicitud para crear una nueva respuesta de agente. Configura el modelo, la entrada, las herramientas, el formato de salida y el comportamiento del agente. Soporta tanto la ejecución en primer plano (bloqueante) como en segundo plano (asíncrona) con transmisión opcional.

model
string
requerido

El ID del modelo a utilizar para generar la respuesta.

input

La entrada del usuario para enviar al agente. Puede ser una cadena de texto simple para consultas básicas, o un array de objetos de ítems que contengan texto, imágenes, archivos o audio para interacciones multimodales. Este es el contenido principal al que el agente responderá.

instructions
string

Instrucciones del sistema o del desarrollador insertadas en el contexto del modelo antes de la entrada del usuario. Utiliza esto para guiar el comportamiento del agente, establecer la personalidad, definir restricciones o proporcionar conocimiento específico del dominio. Actúa como un mensaje persistente del sistema para esta respuesta.

conversation

La conversación a la que pertenece esta respuesta. Puede ser una cadena de ID de conversación o un objeto de conversación. Se utiliza para mantener el contexto y la historia a través de múltiples interacciones con el agente. Opcional: omitir para interacciones únicas.

previous_response_id
string

El ID único de una respuesta anterior de la que continuar. Se utiliza para conversaciones de múltiples turnos para mantener el contexto y la historia. El agente tendrá acceso a todas las interacciones anteriores en la cadena.

prompt
object

Referencia a una plantilla de aviso para usar en esta respuesta, junto con variables para sustituir. Permite utilizar plantillas de aviso predefinidas y versionadas en lugar de instrucciones en línea. El sistema de plantillas admite la interpolación de variables.

include
enum<string>[]

Campos adicionales para incluir en la salida de respuesta. Permite solicitar datos anidados específicos como fuentes de búsqueda web, salidas de intérprete de código, capturas de pantalla de computadoras, resultados de búsqueda de archivos, imágenes de entrada, logprobs de salida o contenido de razonamiento. Estos campos pueden tener implicaciones de rendimiento o costo.

Opciones disponibles:
web_search_call.action.sources,
code_interpreter_call.outputs,
computer_call_output.output.image_url,
file_search_call.results,
message.input_image.image_url,
message.output_text.logprobs,
reasoning.encrypted_content
text
object

Opciones de configuración para la salida de texto del modelo. Incluye formato de respuesta (texto, objeto JSON, esquema JSON) y nivel de detalle (bajo, medio, alto). Utiliza esto para controlar la estructura y el nivel de detalle de la salida.

stream
boolean
predeterminado:false

Si se establece en verdadero, los datos de respuesta se transmitirán mediante eventos enviados por el servidor (SSE) para actualizaciones en tiempo real a medida que el agente genera la respuesta. Cuando es falso, la respuesta se devuelve como un solo objeto completo. Por defecto es falso.

stream_options
object

Opciones adicionales para configurar el comportamiento de transmisión cuando la transmisión está habilitada.

store
boolean
predeterminado:true

Si almacenar la respuesta generada para recuperación posterior. Cuando es verdadero, la respuesta se guarda y se puede recuperar a través de GET /responses/{id}. Cuando es falso, la respuesta no se persiste después de la generación. Por defecto es verdadero.

background
boolean
predeterminado:false

Si se debe ejecutar la respuesta del modelo en segundo plano de forma asíncrona. Cuando es verdadero, la solicitud devuelve inmediatamente con un ID de respuesta mientras el agente procesa en segundo plano. Utilice GET /responses/{id} para recuperar los resultados más tarde. Cuando es falso, la solicitud se bloquea hasta la finalización. Por defecto es falso.

webhook_url
string<uri>

URL para recibir notificaciones webhook sobre cambios de estado (en cola, en progreso, completado, fallido, incompleto). Solo es válido cuando background=true. Si se proporciona sin background=true, la solicitud será rechazada.

webhook_secret
string

Secreto opcional para la firma HMAC-SHA256 de las cargas de webhook. Cuando se proporciona, los webhooks incluyen un encabezado X-Webhook-Signature con la firma. Se requiere que webhook_url esté configurado.

Required string length: 16 - 256
tools
(Function tool definition · object | File search tool definition · object | Computer use tool definition · object | Web search tool definition · object | MCP tool definition · object | Code interpreter tool definition · object | Image generation tool definition · object | Local shell tool definition · object | Shell tool definition · object | Custom tool definition · object | Web search preview tool definition · object | Hosted tool definition · object | History tool definition · object)[]

Array de definiciones de herramientas que el agente puede utilizar durante la generación de respuestas. Soporta herramientas integradas (búsqueda web, búsqueda de archivos, intérprete de código, uso de computadora, generación de imágenes) y herramientas personalizadas (funciones, MCP, shell local). Cada definición de herramienta especifica su tipo y configuración.

Definición de herramienta de función: Define una herramienta de función callable. Proporcione un nombre de herramienta y un esquema de parámetros, con descripción opcional y carga diferida.

tool_choice

Controla cómo el agente selecciona qué herramientas utilizar. Puede ser 'ninguno' (sin herramientas), 'automático' (el modelo decide), 'requerido' (debe usar herramientas) o un objeto de selección de herramienta específico. Utiliza esto para forzar o prevenir el uso de herramientas.

Opciones disponibles:
none,
auto,
required
parallel_tool_calls
boolean
predeterminado:true

Si permitir que el agente ejecute múltiples llamadas a herramientas en paralelo. Cuando es verdadero, el agente puede hacer llamadas a herramientas concurrentes para mayor eficiencia. Cuando es falso, las herramientas se llaman secuencialmente. Por defecto, es verdadero para un mejor rendimiento.

max_tool_calls
integer
predeterminado:30

El número total máximo de llamadas a herramientas que el agente puede hacer durante esta respuesta. Útil para controlar el tiempo de ejecución y prevenir bucles infinitos. Se aplica a todas las herramientas integradas como búsqueda en la web, búsqueda de archivos, intérprete de código, etc. Debe ser un número entero positivo entre 1 y 300. Por defecto es 30.

Rango requerido: 1 <= x <= 300
reasoning
object

Opciones de configuración para modelos de razonamiento. Controla el nivel de esfuerzo de razonamiento (mínimo, bajo, medio, alto) y la verbosidad del resumen (automático, conciso, detallado). Solo aplicable a modelos específicos capaces de razonamiento.

auto_routing
boolean

Cuando es verdadero, la puerta de enlace inspecciona la complejidad de la solicitud y enruta automáticamente entre variantes cuantizadas, MoE y densas dentro de la familia de modelos solicitada.

auto_routing_debug
boolean

Extensión de puerta de enlace. Cuando es verdadero junto con auto_routing, los metadatos de respuesta incluyen una decisión de enrutamiento serializada compacta, para que puedas inspeccionar el nivel de destino inferido incluso cuando no hay una variante hermana compatible disponible.

max_output_tokens
integer

El número máximo de tokens que el modelo puede generar en su salida. Establece un límite superior para controlar costos y la longitud de la respuesta. La salida real puede ser más corta si el modelo termina de manera natural. Debe ser un entero positivo.

Rango requerido: 1 <= x <= 9007199254740991
temperature
number

Controla la aleatoriedad en la salida del modelo. Valores más altos (por ejemplo, 1.5-2.0) hacen que la salida sea más aleatoria y creativa, mientras que valores más bajos (por ejemplo, 0.0-0.5) la hacen más centrada y determinista. Debe estar entre 0 y 2.

Rango requerido: 0 <= x <= 2
top_p
number

Parámetro de muestreo de núcleo. El modelo considera solo los tokens con una probabilidad acumulativa top_p. Valores más bajos (por ejemplo, 0.1) hacen que la salida sea más centrada, valores más altos (por ejemplo, 0.9) permiten más diversidad. Debe estar entre 0 y 1. Alternativa a la temperatura.

Rango requerido: 0 <= x <= 1
top_logprobs
integer

El número de tokens más probables a devolver en cada posición junto con sus probabilidades logarítmicas. Debe estar entre 0 y 20. Útil para entender la confianza del modelo y explorar salidas alternativas.

Rango requerido: 0 <= x <= 20
truncation
enum<string>
predeterminado:auto

La estrategia de truncamiento para manejar entradas que exceden la ventana de contexto del modelo. 'auto' trunca automáticamente los mensajes antiguos para ajustarse, 'deshabilitado' devuelve un error si el contexto es demasiado largo. Por defecto es 'auto'.

Opciones disponibles:
auto,
disabled
context_management
object[]

Estrategias de gestión del contexto para aplicar durante la generación de respuestas. Soporta la compactación, que resume el historial de conversación más antiguo cuando el contexto supera un umbral de tokens.

Maximum array length: 1
presence_penalty
number

Penaliza los nuevos tokens en función de si aparecen en el texto hasta ahora. Valores más altos aumentan la probabilidad de que el modelo hable sobre nuevos temas.

Rango requerido: -2 <= x <= 2
frequency_penalty
number

Penaliza nuevos tokens según su frecuencia en el texto hasta ahora. Valores más altos disminuyen la probabilidad de que el modelo repita la misma línea literalmente.

Rango requerido: -2 <= x <= 2
service_tier
enum<string>
predeterminado:auto

Especifica el nivel de procesamiento para atender la solicitud. 'auto' permite al sistema elegir, 'default' utiliza procesamiento estándar, 'flex' permite programación flexible para menor prioridad, 'priority' proporciona un procesamiento más rápido. Por defecto es 'auto'.

Opciones disponibles:
auto,
default,
flex,
priority
prompt_cache_key
string

Un identificador estable utilizado para almacenar en caché solicitudes y contexto. Ayuda a reducir costos y latencia al reutilizar el procesamiento de solicitudes en caché. Útil para solicitudes que se utilizan repetidamente con ligeras variaciones.

safety_identifier
string

Un identificador estable utilizado para ayudar a detectar y prevenir violaciones de políticas a través de múltiples solicitudes. Ayuda al sistema a identificar patrones de abuso o uso indebido. Útil para el seguimiento del cumplimiento y la monitorización de la seguridad.

metadata
object
modalities
enum<string>[]

Tipos de salida que el modelo debe generar. Por defecto es ['texto']. Incluya 'audio' para recibir una representación de audio de la respuesta de texto a través de TTS.

Opciones disponibles:
text,
audio
audio
object

Configuración de salida de audio. Opcional cuando las modalidades incluyen 'audio'; se aplican valores predeterminados si se omite.

user
string

DESAPROBADO: Un identificador único para el usuario final. Utilice safety_identifier para la detección de violaciones de políticas y prompt_cache_key para almacenamiento en caché en su lugar. Este campo se mantiene por compatibilidad hacia atrás.

Respuesta

Respuesta exitosa: devuelve ya sea eventos en streaming (SSE) o un objeto de respuesta completo (JSON) dependiendo del parámetro de flujo.

id
string
requerido
object
any
requerido
created_at
number
requerido
completed_at
number | null
requerido
status
enum<string>
requerido

El estado general de la generación de respuestas. 'completado' significa finalizado con éxito, 'fallido' significa que ocurrió un error, 'en_proceso' significa que se está procesando actualmente, 'cancelado' significa cancelado por el usuario, 'en_colas' significa esperando para comenzar, 'incompleto' significa finalización parcial.

Opciones disponibles:
completed,
failed,
in_progress,
cancelled,
queued,
incomplete
error
object
requerido
incomplete_details
object
requerido
background
boolean
requerido
instructions
requerido
max_output_tokens
integer | null
requerido
Rango requerido: -9007199254740991 <= x <= 9007199254740991
Ejemplo:

null

max_tool_calls
integer | null
requerido
Rango requerido: -9007199254740991 <= x <= 9007199254740991
metadata
object
requerido
model
string
requerido
output
(Input message item · object | Output message item · object | Output audio item · object | File search call item · object | Computer call item · object | Computer call output item · object | Web search call item · object | Function call item · object | Function call output item · object | Reasoning item · object | Image generation call item · object | Code interpreter call item · object | Local shell call item · object | Local shell call output item · object | Shell call item · object | Shell call output item · object | MCP list tools item · object | MCP approval request item · object | MCP approval response item · object | MCP call item · object | Custom tool call item · object | Custom tool call output item · object | Item reference item · object | Compaction item · object)[]
requerido

Elemento de mensaje de entrada: Un mensaje con rol y contenido. Utiliza esto para turnos de usuario, asistente, sistema o desarrollador en entradas estructuradas.

parallel_tool_calls
boolean
requerido
previous_response_id
string | null
requerido
store
boolean
requerido
text
object
requerido
tool_choice
requerido

Modo de elección de herramienta: Selecciona cómo el modelo decide el uso de herramientas. Usa ninguno, automático o requerido.

Opciones disponibles:
none,
auto,
required
tools
(Function tool definition · object | File search tool definition · object | Computer use tool definition · object | Web search tool definition · object | MCP tool definition · object | Code interpreter tool definition · object | Image generation tool definition · object | Local shell tool definition · object | Shell tool definition · object | Custom tool definition · object | Web search preview tool definition · object | Hosted tool definition · object | History tool definition · object)[]
requerido

Definición de herramienta de función: Define una herramienta de función callable. Proporcione un nombre de herramienta y un esquema de parámetros, con descripción opcional y carga diferida.

truncation
enum<string>
requerido
Opciones disponibles:
auto,
disabled
usage
object
requerido
user
string | null
requerido
conversation
object
output_text
string
prompt
object
prompt_cache_key
string
reasoning
object
safety_identifier
string
service_tier
enum<string>
Opciones disponibles:
auto,
default,
flex,
priority
temperature
number
Rango requerido: 0 <= x <= 2
presence_penalty
number
frequency_penalty
number
top_logprobs
integer
Rango requerido: 0 <= x <= 20
top_p
number
Rango requerido: 0 <= x <= 1
context_management
object[]