from openapi import SDK
with SDK(
bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:
res = sdk.llm.responses.create(model="meetkai:functionary-urdu-mini-pak", input="What is the capital of France?", stream=False, store=True, background=False, parallel_tool_calls=True, max_tool_calls=30, truncation="auto", service_tier="auto")
with res as event_stream:
for event in event_stream:
# handle event
print(event, flush=True){
"id": "resp_abc123",
"object": "response",
"created_at": 1735689600,
"completed_at": 1735689601,
"status": "completed",
"error": null,
"incomplete_details": null,
"background": false,
"instructions": null,
"max_output_tokens": null,
"max_tool_calls": 30,
"metadata": {},
"model": "meetkai:functionary-urdu-mini-pak",
"output": [
{
"type": "message",
"id": "msg_abc123",
"role": "assistant",
"content": [
{
"type": "output_text",
"text": "The capital of France is Paris.",
"annotations": []
}
],
"status": "completed"
}
],
"output_text": "The capital of France is Paris.",
"parallel_tool_calls": true,
"previous_response_id": null,
"reasoning": {
"effort": null,
"summary": null
},
"service_tier": "auto",
"store": true,
"text": {
"format": {
"type": "text"
},
"verbosity": "medium"
},
"tool_choice": "auto",
"tools": [],
"truncation": "auto",
"usage": {
"input_tokens": 8,
"input_tokens_details": {
"cached_tokens": 0
},
"output_tokens": 7,
"output_tokens_details": {
"reasoning_tokens": 0
},
"total_tokens": 15
},
"user": null
}Crea una nueva respuesta de agente de IA utilizando modelos de lenguaje avanzados con capacidades de uso autónomo de herramientas.
from openapi import SDK
with SDK(
bearer_auth="<YOUR_BEARER_TOKEN_HERE>",
) as sdk:
res = sdk.llm.responses.create(model="meetkai:functionary-urdu-mini-pak", input="What is the capital of France?", stream=False, store=True, background=False, parallel_tool_calls=True, max_tool_calls=30, truncation="auto", service_tier="auto")
with res as event_stream:
for event in event_stream:
# handle event
print(event, flush=True){
"id": "resp_abc123",
"object": "response",
"created_at": 1735689600,
"completed_at": 1735689601,
"status": "completed",
"error": null,
"incomplete_details": null,
"background": false,
"instructions": null,
"max_output_tokens": null,
"max_tool_calls": 30,
"metadata": {},
"model": "meetkai:functionary-urdu-mini-pak",
"output": [
{
"type": "message",
"id": "msg_abc123",
"role": "assistant",
"content": [
{
"type": "output_text",
"text": "The capital of France is Paris.",
"annotations": []
}
],
"status": "completed"
}
],
"output_text": "The capital of France is Paris.",
"parallel_tool_calls": true,
"previous_response_id": null,
"reasoning": {
"effort": null,
"summary": null
},
"service_tier": "auto",
"store": true,
"text": {
"format": {
"type": "text"
},
"verbosity": "medium"
},
"tool_choice": "auto",
"tools": [],
"truncation": "auto",
"usage": {
"input_tokens": 8,
"input_tokens_details": {
"cached_tokens": 0
},
"output_tokens": 7,
"output_tokens_details": {
"reasoning_tokens": 0
},
"total_tokens": 15
},
"user": null
}Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Esquema de solicitud para crear una nueva respuesta de agente. Configura el modelo, la entrada, las herramientas, el formato de salida y el comportamiento del agente. Soporta tanto la ejecución en primer plano (bloqueante) como en segundo plano (asíncrona) con transmisión opcional.
El ID del modelo a utilizar para generar la respuesta.
La entrada del usuario para enviar al agente. Puede ser una cadena de texto simple para consultas básicas, o un array de objetos de ítems que contengan texto, imágenes, archivos o audio para interacciones multimodales. Este es el contenido principal al que el agente responderá.
Instrucciones del sistema o del desarrollador insertadas en el contexto del modelo antes de la entrada del usuario. Utiliza esto para guiar el comportamiento del agente, establecer la personalidad, definir restricciones o proporcionar conocimiento específico del dominio. Actúa como un mensaje persistente del sistema para esta respuesta.
La conversación a la que pertenece esta respuesta. Puede ser una cadena de ID de conversación o un objeto de conversación. Se utiliza para mantener el contexto y la historia a través de múltiples interacciones con el agente. Opcional: omitir para interacciones únicas.
El ID único de una respuesta anterior de la que continuar. Se utiliza para conversaciones de múltiples turnos para mantener el contexto y la historia. El agente tendrá acceso a todas las interacciones anteriores en la cadena.
Referencia a una plantilla de aviso para usar en esta respuesta, junto con variables para sustituir. Permite utilizar plantillas de aviso predefinidas y versionadas en lugar de instrucciones en línea. El sistema de plantillas admite la interpolación de variables.
Show child attributes
Campos adicionales para incluir en la salida de respuesta. Permite solicitar datos anidados específicos como fuentes de búsqueda web, salidas de intérprete de código, capturas de pantalla de computadoras, resultados de búsqueda de archivos, imágenes de entrada, logprobs de salida o contenido de razonamiento. Estos campos pueden tener implicaciones de rendimiento o costo.
web_search_call.action.sources, code_interpreter_call.outputs, computer_call_output.output.image_url, file_search_call.results, message.input_image.image_url, message.output_text.logprobs, reasoning.encrypted_content Opciones de configuración para la salida de texto del modelo. Incluye formato de respuesta (texto, objeto JSON, esquema JSON) y nivel de detalle (bajo, medio, alto). Utiliza esto para controlar la estructura y el nivel de detalle de la salida.
Show child attributes
Si se establece en verdadero, los datos de respuesta se transmitirán mediante eventos enviados por el servidor (SSE) para actualizaciones en tiempo real a medida que el agente genera la respuesta. Cuando es falso, la respuesta se devuelve como un solo objeto completo. Por defecto es falso.
Opciones adicionales para configurar el comportamiento de transmisión cuando la transmisión está habilitada.
Show child attributes
Si almacenar la respuesta generada para recuperación posterior. Cuando es verdadero, la respuesta se guarda y se puede recuperar a través de GET /responses/{id}. Cuando es falso, la respuesta no se persiste después de la generación. Por defecto es verdadero.
Si se debe ejecutar la respuesta del modelo en segundo plano de forma asíncrona. Cuando es verdadero, la solicitud devuelve inmediatamente con un ID de respuesta mientras el agente procesa en segundo plano. Utilice GET /responses/{id} para recuperar los resultados más tarde. Cuando es falso, la solicitud se bloquea hasta la finalización. Por defecto es falso.
URL para recibir notificaciones webhook sobre cambios de estado (en cola, en progreso, completado, fallido, incompleto). Solo es válido cuando background=true. Si se proporciona sin background=true, la solicitud será rechazada.
Secreto opcional para la firma HMAC-SHA256 de las cargas de webhook. Cuando se proporciona, los webhooks incluyen un encabezado X-Webhook-Signature con la firma. Se requiere que webhook_url esté configurado.
16 - 256Array de definiciones de herramientas que el agente puede utilizar durante la generación de respuestas. Soporta herramientas integradas (búsqueda web, búsqueda de archivos, intérprete de código, uso de computadora, generación de imágenes) y herramientas personalizadas (funciones, MCP, shell local). Cada definición de herramienta especifica su tipo y configuración.
Definición de herramienta de función: Define una herramienta de función callable. Proporcione un nombre de herramienta y un esquema de parámetros, con descripción opcional y carga diferida.
Show child attributes
Controla cómo el agente selecciona qué herramientas utilizar. Puede ser 'ninguno' (sin herramientas), 'automático' (el modelo decide), 'requerido' (debe usar herramientas) o un objeto de selección de herramienta específico. Utiliza esto para forzar o prevenir el uso de herramientas.
none, auto, required Si permitir que el agente ejecute múltiples llamadas a herramientas en paralelo. Cuando es verdadero, el agente puede hacer llamadas a herramientas concurrentes para mayor eficiencia. Cuando es falso, las herramientas se llaman secuencialmente. Por defecto, es verdadero para un mejor rendimiento.
El número total máximo de llamadas a herramientas que el agente puede hacer durante esta respuesta. Útil para controlar el tiempo de ejecución y prevenir bucles infinitos. Se aplica a todas las herramientas integradas como búsqueda en la web, búsqueda de archivos, intérprete de código, etc. Debe ser un número entero positivo entre 1 y 300. Por defecto es 30.
1 <= x <= 300Opciones de configuración para modelos de razonamiento. Controla el nivel de esfuerzo de razonamiento (mínimo, bajo, medio, alto) y la verbosidad del resumen (automático, conciso, detallado). Solo aplicable a modelos específicos capaces de razonamiento.
Show child attributes
Cuando es verdadero, la puerta de enlace inspecciona la complejidad de la solicitud y enruta automáticamente entre variantes cuantizadas, MoE y densas dentro de la familia de modelos solicitada.
Extensión de puerta de enlace. Cuando es verdadero junto con auto_routing, los metadatos de respuesta incluyen una decisión de enrutamiento serializada compacta, para que puedas inspeccionar el nivel de destino inferido incluso cuando no hay una variante hermana compatible disponible.
El número máximo de tokens que el modelo puede generar en su salida. Establece un límite superior para controlar costos y la longitud de la respuesta. La salida real puede ser más corta si el modelo termina de manera natural. Debe ser un entero positivo.
1 <= x <= 9007199254740991Controla la aleatoriedad en la salida del modelo. Valores más altos (por ejemplo, 1.5-2.0) hacen que la salida sea más aleatoria y creativa, mientras que valores más bajos (por ejemplo, 0.0-0.5) la hacen más centrada y determinista. Debe estar entre 0 y 2.
0 <= x <= 2Parámetro de muestreo de núcleo. El modelo considera solo los tokens con una probabilidad acumulativa top_p. Valores más bajos (por ejemplo, 0.1) hacen que la salida sea más centrada, valores más altos (por ejemplo, 0.9) permiten más diversidad. Debe estar entre 0 y 1. Alternativa a la temperatura.
0 <= x <= 1El número de tokens más probables a devolver en cada posición junto con sus probabilidades logarítmicas. Debe estar entre 0 y 20. Útil para entender la confianza del modelo y explorar salidas alternativas.
0 <= x <= 20La estrategia de truncamiento para manejar entradas que exceden la ventana de contexto del modelo. 'auto' trunca automáticamente los mensajes antiguos para ajustarse, 'deshabilitado' devuelve un error si el contexto es demasiado largo. Por defecto es 'auto'.
auto, disabled Estrategias de gestión del contexto para aplicar durante la generación de respuestas. Soporta la compactación, que resume el historial de conversación más antiguo cuando el contexto supera un umbral de tokens.
1Show child attributes
Penaliza los nuevos tokens en función de si aparecen en el texto hasta ahora. Valores más altos aumentan la probabilidad de que el modelo hable sobre nuevos temas.
-2 <= x <= 2Penaliza nuevos tokens según su frecuencia en el texto hasta ahora. Valores más altos disminuyen la probabilidad de que el modelo repita la misma línea literalmente.
-2 <= x <= 2Especifica el nivel de procesamiento para atender la solicitud. 'auto' permite al sistema elegir, 'default' utiliza procesamiento estándar, 'flex' permite programación flexible para menor prioridad, 'priority' proporciona un procesamiento más rápido. Por defecto es 'auto'.
auto, default, flex, priority Un identificador estable utilizado para almacenar en caché solicitudes y contexto. Ayuda a reducir costos y latencia al reutilizar el procesamiento de solicitudes en caché. Útil para solicitudes que se utilizan repetidamente con ligeras variaciones.
Un identificador estable utilizado para ayudar a detectar y prevenir violaciones de políticas a través de múltiples solicitudes. Ayuda al sistema a identificar patrones de abuso o uso indebido. Útil para el seguimiento del cumplimiento y la monitorización de la seguridad.
Show child attributes
Tipos de salida que el modelo debe generar. Por defecto es ['texto']. Incluya 'audio' para recibir una representación de audio de la respuesta de texto a través de TTS.
text, audio Configuración de salida de audio. Opcional cuando las modalidades incluyen 'audio'; se aplican valores predeterminados si se omite.
Show child attributes
DESAPROBADO: Un identificador único para el usuario final. Utilice safety_identifier para la detección de violaciones de políticas y prompt_cache_key para almacenamiento en caché en su lugar. Este campo se mantiene por compatibilidad hacia atrás.
Respuesta exitosa: devuelve ya sea eventos en streaming (SSE) o un objeto de respuesta completo (JSON) dependiendo del parámetro de flujo.
El estado general de la generación de respuestas. 'completado' significa finalizado con éxito, 'fallido' significa que ocurrió un error, 'en_proceso' significa que se está procesando actualmente, 'cancelado' significa cancelado por el usuario, 'en_colas' significa esperando para comenzar, 'incompleto' significa finalización parcial.
completed, failed, in_progress, cancelled, queued, incomplete Show child attributes
Show child attributes
-9007199254740991 <= x <= 9007199254740991null
-9007199254740991 <= x <= 9007199254740991Show child attributes
Elemento de mensaje de entrada: Un mensaje con rol y contenido. Utiliza esto para turnos de usuario, asistente, sistema o desarrollador en entradas estructuradas.
Show child attributes
Show child attributes
Modo de elección de herramienta: Selecciona cómo el modelo decide el uso de herramientas. Usa ninguno, automático o requerido.
none, auto, required Definición de herramienta de función: Define una herramienta de función callable. Proporcione un nombre de herramienta y un esquema de parámetros, con descripción opcional y carga diferida.
Show child attributes
auto, disabled Show child attributes
Show child attributes
Show child attributes
Show child attributes
auto, default, flex, priority 0 <= x <= 20 <= x <= 200 <= x <= 1Show child attributes
¿Esta página le ayudó?