Crea una respuesta impulsada por un agente con soporte de herramientas.

Autorizaciones

Authorization

string

header

requerido

Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.

Encabezados

X-On-Behalf-Of

string

Optional external end-user identifier forwarded by the API gateway.

Cuerpo

application/json

Esquema de solicitud para crear una nueva respuesta de agente. Configura el modelo del agente, la entrada, las herramientas, el formato de salida y el comportamiento. Soporta tanto la ejecución en primer plano (bloqueante) como en segundo plano (asíncrona) con transmisión opcional.

model

string

requerido

La ID del modelo a utilizar para generar la respuesta.

input

La entrada del usuario que se enviará al agente. Puede ser una cadena de texto simple para consultas básicas, o un array de objetos de ítems que contienen texto, imágenes, archivos o audio para interacciones multimodales. Este es el contenido principal al que el agente responderá.

instructions

string

Instrucciones del sistema o del desarrollador insertadas en el contexto del modelo antes de la entrada del usuario. Utiliza esto para guiar el comportamiento del agente, establecer la personalidad, definir limitaciones o proporcionar conocimientos específicos del dominio. Actúa como un mensaje del sistema persistente para esta respuesta.

conversation

La conversación a la que pertenece esta respuesta. Puede ser una cadena de identificación de conversación o un objeto de conversación. Se utiliza para mantener el contexto y la historia a través de múltiples interacciones con agentes. Opcional: omitir para interacciones únicas.

previous_response_id

string

El ID único de una respuesta anterior para continuar. Se utiliza para conversaciones de múltiples turnos para mantener el contexto y el historial. El agente tendrá acceso a todas las interacciones anteriores en la cadena.

prompt

object

Referencia a una plantilla de aviso para usar en esta respuesta, junto con variables a sustituir. Permite utilizar plantillas de aviso predefinidas y versionadas en lugar de instrucciones en línea. El sistema de plantillas soporta la interpolación de variables.

Show child attributes

include

enum<string>[]

Campos adicionales para incluir en la salida de respuesta. Permite solicitar datos anidados específicos como fuentes de búsqueda en la web, salidas del intérprete de código, capturas de pantalla de computadora, resultados de búsqueda de archivos, imágenes de entrada, logprobs de salida o contenido de razonamiento. Estos campos pueden tener implicaciones en el rendimiento o en el costo.

Opciones disponibles:

web_search_call.action.sources,

code_interpreter_call.outputs,

computer_call_output.output.image_url,

file_search_call.results,

message.input_image.image_url,

message.output_text.logprobs,

reasoning.encrypted_content

text

object

Opciones de configuración para la salida de texto del modelo. Incluye formato de respuesta (texto, objeto JSON, esquema JSON) y nivel de verbosidad (bajo, medio, alto). Utiliza esto para controlar la estructura de salida y el nivel de detalle.

Show child attributes

stream

boolean

predeterminado:false

Si se establece en verdadero, los datos de la respuesta se transmitirán utilizando Eventos Enviados por el Servidor (SSE) para actualizaciones en tiempo real a medida que el agente genera la respuesta. Cuando es falso, la respuesta se devuelve como un único objeto completo. Por defecto es falso.

stream_options

object

Opciones adicionales para configurar el comportamiento de transmisión cuando el streaming está habilitado.

Show child attributes

store

boolean

predeterminado:true

Si almacenar la respuesta generada para su recuperación posterior. Cuando es verdadero, la respuesta se guarda y se puede recuperar a través de GET /responses/{id}. Cuando es falso, la respuesta no se persiste después de la generación. Por defecto es verdadero.

background

boolean

predeterminado:false

Ya sea para ejecutar la respuesta del modelo en segundo plano de forma asíncrona. Cuando es verdadero, la solicitud devuelve inmediatamente un ID de respuesta mientras el agente procesa en segundo plano. Utilice GET /responses/{id} para recuperar resultados más tarde. Cuando es falso, la solicitud se bloquea hasta completarse. Por defecto es falso.

webhook_url

string<uri>

URL para recibir notificaciones de webhook sobre cambios de estado (en cola, en progreso, completado, fallido, incompleto). Solo es válido cuando background=true. Si se proporciona sin background=true, la solicitud será rechazada.

webhook_secret

string

Secreto opcional para la firma HMAC-SHA256 de las cargas útiles de webhook. Cuando se proporciona, los webhooks incluyen un encabezado X-Webhook-Signature con la firma. Requiere que se establezca webhook_url.

Required string length: 16 - 256

tools

Array de definiciones de herramientas que el agente puede utilizar durante la generación de respuestas. Soporta herramientas integradas (búsqueda web, búsqueda de archivos, intérprete de código, uso de computadora, generación de imágenes) y herramientas personalizadas (funciones, MCP, shell local). Cada definición de herramienta especifica su tipo y configuración.

Definición de herramienta de función: Define una herramienta de función que se puede llamar. Proporcione un nombre de herramienta y un esquema de parámetros, con una descripción opcional y carga diferida.

Show child attributes

tool_choice

Controles cómo el agente selecciona qué herramientas usar. Puede ser 'ninguna' (sin herramientas), 'automático' (el modelo decide), 'requerido' (debe usar herramientas) o un objeto de selección de herramientas específico. Utilice esto para forzar o evitar el uso de herramientas.

Opciones disponibles:

none,

auto,

required

parallel_tool_calls

boolean

predeterminado:true

Si permitir que el agente ejecute múltiples llamadas a herramientas en paralelo. Cuando es verdadero, el agente puede hacer llamadas a herramientas de manera concurrente para mayor eficiencia. Cuando es falso, las herramientas se llaman de manera secuencial. Por defecto, es verdadero para un mejor rendimiento.

max_tool_calls

integer

predeterminado:64

El número total máximo de llamadas a herramientas que el agente puede hacer durante esta respuesta. Útil para controlar el tiempo de ejecución y prevenir bucles infinitos. Se aplica a todas las herramientas integradas como búsqueda web, búsqueda de archivos, intérprete de código, etc. Debe ser un entero positivo entre 1 y 300. Por defecto es 64.

Rango requerido: 1 <= x <= 300

reasoning

object

Opciones de configuración para modelos de razonamiento. Controla el nivel de esfuerzo de razonamiento (mínimo, bajo, medio, alto) y la verbosidad del resumen (automático, conciso, detallado). Solo aplicable a modelos específicos capaces de razonar.

Show child attributes

auto_routing

boolean

Cuando es verdadero, el gateway inspecciona la complejidad de la solicitud y enruta automáticamente entre variantes cuantizadas, MoE y densas dentro de la familia de modelos solicitada.

auto_routing_debug

boolean

Extensión de puerta de enlace. Cuando es verdadero junto con auto_routing, los metadatos de respuesta incluyen una decisión de enrutamiento serializada compacta para que puedas inspeccionar el nivel objetivo inferido incluso cuando no hay una variante compatible disponible.

max_output_tokens

integer

El número máximo de tokens que el modelo puede generar en su salida. Establece un límite superior para controlar costos y la longitud de la respuesta. La salida real puede ser más corta si el modelo termina de manera natural. Debe ser un número entero positivo.

Rango requerido: 1 <= x <= 9007199254740991

temperature

number

Controla la aleatoriedad en la salida del modelo. Valores más altos (por ejemplo, 1.5-2.0) hacen que la salida sea más aleatoria y creativa, mientras que valores más bajos (por ejemplo, 0.0-0.5) la hacen más enfocada y determinista. Debe estar entre 0 y 2.

Rango requerido: 0 <= x <= 2

top_p

number

Parámetro de muestreo de núcleo. El modelo considera solo los tokens con una probabilidad acumulada top_p. Valores más bajos (por ejemplo, 0.1) hacen que la salida sea más enfocada, valores más altos (por ejemplo, 0.9) permiten más diversidad. Debe estar entre 0 y 1. Alternativa a la temperatura.

Rango requerido: 0 <= x <= 1

stop

Extensión de Gateway. Secuencia(s) de parada donde los proveedores ascendentes compatibles deben detener la generación. Las ejecuciones de evaluación también imponen esto como una protección de post-procesamiento.

top_k

integer

Extensión de puerta de enlace. Parámetro de muestreo top-k específico del proveedor.

Rango requerido: 0 <= x <= 9007199254740991

min_p

number

Extensión de puerta de enlace. Parámetro de muestreo min-p específico del proveedor.

Rango requerido: 0 <= x <= 1

repetition_penalty

number

Extensión de puerta de enlace. Penalización de repetición específica del proveedor.

Rango requerido: x >= 0

do_sample

boolean

Extensión de puerta de enlace. Alternar de muestreo específico del proveedor.

extra_body

object

Extensión de puerta de enlace. Passthrough de cuerpo de solicitud específico del proveedor controlado.

Show child attributes

chat_template_kwargs

object

Extensión de puerta de enlace. Opciones de plantilla de chat específicas del proveedor, como enable_thinking=false.

Show child attributes

prefill_think

Extensión de Gateway. Alternar la preconfiguración específica del proveedor o el texto de preconfiguración.

use_cache

boolean

Extensión de puerta de enlace. Interruptor de caché específico del proveedor donde sea compatible.

top_logprobs

integer

El número de tokens más probables para devolver en cada posición junto con sus probabilidades logarítmicas. Debe estar entre 0 y 20. Útil para comprender la confianza del modelo y explorar salidas alternativas.

Rango requerido: 0 <= x <= 20

truncation

enum<string>

predeterminado:auto

La estrategia de truncamiento para manejar entradas que exceden la ventana de contexto del modelo. 'auto' trunca automáticamente los mensajes antiguos para ajustarse, 'desactivado' devuelve un error si el contexto es demasiado largo. Por defecto, es 'auto'.

Opciones disponibles:

auto,

disabled

context_management

object[]

Estrategias de gestión del contexto para aplicar durante la generación de respuestas. Soporta la compresión, que resume el historial de conversación anterior cuando el contexto excede un umbral de tokens.

Maximum array length: 1

Show child attributes

presence_penalty

number

Penaliza los nuevos tokens en función de si aparecen en el texto hasta ahora. Valores más altos aumentan la probabilidad de que el modelo hable sobre nuevos temas.

Rango requerido: -2 <= x <= 2

frequency_penalty

number

Penaliza los nuevos tokens según su frecuencia en el texto hasta ahora. Valores más altos disminuyen la probabilidad del modelo de repetir la misma línea al pie de la letra.

Rango requerido: -2 <= x <= 2

service_tier

enum<string>

predeterminado:auto

Especifica el nivel de procesamiento para atender la solicitud. 'auto' permite que el sistema elija, 'default' utiliza procesamiento estándar, 'flex' permite programación flexible para menor prioridad, 'priority' proporciona un procesamiento más rápido. Por defecto es 'auto'.

Opciones disponibles:

auto,

default,

flex,

priority

prompt_cache_key

string

Un identificador estable utilizado para almacenar en caché prompts y contexto. Ayuda a reducir costos y latencia al reutilizar el procesamiento de prompts almacenados en caché. Útil para prompts que se utilizan repetidamente con variaciones menores.

safety_identifier

string

Un identificador estable utilizado para ayudar a detectar y prevenir violaciones de políticas en múltiples solicitudes. Ayuda al sistema a identificar patrones de abuso o mal uso. Útil para el seguimiento de cumplimiento y la monitorización de la seguridad.

metadata

object

Show child attributes

modalities

enum<string>[]

Tipos de salida que el modelo debe generar. Por defecto es ['text']. Incluye 'audio' para recibir una representación de audio de la respuesta de texto a través de TTS.

Opciones disponibles:

text,

audio

audio

object

Configuración de salida de audio. Opcional cuando las modalidades incluyen 'audio'; se aplican los valores predeterminados si se omite.

Show child attributes

user

string

OBSOLETO: Un identificador único para el usuario final. Utilice safety_identifier para la detección de violaciones de políticas y prompt_cache_key para el almacenamiento en caché en su lugar. Este campo se mantiene para compatibilidad hacia atrás.

Respuesta

Respuesta exitosa: devuelve eventos de transmisión (SSE) o un objeto de respuesta completo (JSON) dependiendo del parámetro de transmisión.

string

requerido

object

any

requerido

created_at

number

requerido

completed_at

number | null

requerido

status

enum<string>

requerido

El estado general de la generación de respuestas. 'completado' significa finalizado con éxito, 'fallido' significa que ocurrió un error, 'en_proceso' significa que se está procesando actualmente, 'cancelado' significa cancelado por el usuario, 'en_cola' significa esperando a comenzar, 'incompleto' significa finalización parcial.

Opciones disponibles:

completed,

failed,

in_progress,

cancelled,

queued,

incomplete

error

object

requerido

Show child attributes

incomplete_details

object

requerido

Show child attributes

background

boolean

requerido

instructions

requerido

max_output_tokens

integer | null

requerido

Rango requerido: -9007199254740991 <= x <= 9007199254740991

Ejemplo:

null

max_tool_calls

integer | null

requerido

Rango requerido: -9007199254740991 <= x <= 9007199254740991

metadata

object

requerido

Show child attributes

model

string

requerido

output

requerido

Elemento del mensaje de entrada: Un mensaje con rol y contenido. Utiliza esto para turnos de usuario, asistente, sistema o desarrollador en entradas estructuradas.

Show child attributes

parallel_tool_calls

boolean

requerido

previous_response_id

string | null

requerido

store

boolean

requerido

text

object

requerido

Show child attributes

tool_choice

requerido

Modo de elección de herramientas: Selecciona cómo el modelo decide el uso de herramientas. Usa ninguno, automático o requerido.

Opciones disponibles:

none,

auto,

required

tools

requerido

Show child attributes

truncation

enum<string>

requerido

Opciones disponibles:

auto,

disabled

usage

object

requerido

Show child attributes

user

string | null

requerido

conversation

object

Show child attributes

output_text

string

prompt

object

Show child attributes

prompt_cache_key

string

reasoning

object

Show child attributes

safety_identifier

string

service_tier

enum<string>

Opciones disponibles:

auto,

default,

flex,

priority

temperature

number

Rango requerido: 0 <= x <= 2

presence_penalty

number

frequency_penalty

number

top_logprobs

integer

Rango requerido: 0 <= x <= 20

top_p

number

Rango requerido: 0 <= x <= 1

context_management

object[]

Show child attributes

Documentation Index

Autorizaciones

Encabezados

Cuerpo

Respuesta