Crea una respuesta impulsada por un agente con soporte de herramientas.
Crea una nueva respuesta de agente de IA utilizando modelos de lenguaje avanzados con capacidades de uso autónomo de herramientas.
Documentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
Autorizaciones
Gateway auth: send Authorization: Bearer <mka1-api-key>. For multi-user server-side integrations, you can also send X-On-Behalf-Of: <external-user-id>.
Encabezados
Optional external end-user identifier forwarded by the API gateway.
Cuerpo
Esquema de solicitud para crear una nueva respuesta de agente. Configura el modelo del agente, la entrada, las herramientas, el formato de salida y el comportamiento. Soporta tanto la ejecución en primer plano (bloqueante) como en segundo plano (asíncrona) con transmisión opcional.
La ID del modelo a utilizar para generar la respuesta.
La entrada del usuario que se enviará al agente. Puede ser una cadena de texto simple para consultas básicas, o un array de objetos de ítems que contienen texto, imágenes, archivos o audio para interacciones multimodales. Este es el contenido principal al que el agente responderá.
Instrucciones del sistema o del desarrollador insertadas en el contexto del modelo antes de la entrada del usuario. Utiliza esto para guiar el comportamiento del agente, establecer la personalidad, definir limitaciones o proporcionar conocimientos específicos del dominio. Actúa como un mensaje del sistema persistente para esta respuesta.
La conversación a la que pertenece esta respuesta. Puede ser una cadena de identificación de conversación o un objeto de conversación. Se utiliza para mantener el contexto y la historia a través de múltiples interacciones con agentes. Opcional: omitir para interacciones únicas.
El ID único de una respuesta anterior para continuar. Se utiliza para conversaciones de múltiples turnos para mantener el contexto y el historial. El agente tendrá acceso a todas las interacciones anteriores en la cadena.
Referencia a una plantilla de aviso para usar en esta respuesta, junto con variables a sustituir. Permite utilizar plantillas de aviso predefinidas y versionadas en lugar de instrucciones en línea. El sistema de plantillas soporta la interpolación de variables.
Campos adicionales para incluir en la salida de respuesta. Permite solicitar datos anidados específicos como fuentes de búsqueda en la web, salidas del intérprete de código, capturas de pantalla de computadora, resultados de búsqueda de archivos, imágenes de entrada, logprobs de salida o contenido de razonamiento. Estos campos pueden tener implicaciones en el rendimiento o en el costo.
web_search_call.action.sources, code_interpreter_call.outputs, computer_call_output.output.image_url, file_search_call.results, message.input_image.image_url, message.output_text.logprobs, reasoning.encrypted_content Opciones de configuración para la salida de texto del modelo. Incluye formato de respuesta (texto, objeto JSON, esquema JSON) y nivel de verbosidad (bajo, medio, alto). Utiliza esto para controlar la estructura de salida y el nivel de detalle.
Si se establece en verdadero, los datos de la respuesta se transmitirán utilizando Eventos Enviados por el Servidor (SSE) para actualizaciones en tiempo real a medida que el agente genera la respuesta. Cuando es falso, la respuesta se devuelve como un único objeto completo. Por defecto es falso.
Opciones adicionales para configurar el comportamiento de transmisión cuando el streaming está habilitado.
Si almacenar la respuesta generada para su recuperación posterior. Cuando es verdadero, la respuesta se guarda y se puede recuperar a través de GET /responses/{id}. Cuando es falso, la respuesta no se persiste después de la generación. Por defecto es verdadero.
Ya sea para ejecutar la respuesta del modelo en segundo plano de forma asíncrona. Cuando es verdadero, la solicitud devuelve inmediatamente un ID de respuesta mientras el agente procesa en segundo plano. Utilice GET /responses/{id} para recuperar resultados más tarde. Cuando es falso, la solicitud se bloquea hasta completarse. Por defecto es falso.
URL para recibir notificaciones de webhook sobre cambios de estado (en cola, en progreso, completado, fallido, incompleto). Solo es válido cuando background=true. Si se proporciona sin background=true, la solicitud será rechazada.
Secreto opcional para la firma HMAC-SHA256 de las cargas útiles de webhook. Cuando se proporciona, los webhooks incluyen un encabezado X-Webhook-Signature con la firma. Requiere que se establezca webhook_url.
16 - 256Array de definiciones de herramientas que el agente puede utilizar durante la generación de respuestas. Soporta herramientas integradas (búsqueda web, búsqueda de archivos, intérprete de código, uso de computadora, generación de imágenes) y herramientas personalizadas (funciones, MCP, shell local). Cada definición de herramienta especifica su tipo y configuración.
Definición de herramienta de función: Define una herramienta de función que se puede llamar. Proporcione un nombre de herramienta y un esquema de parámetros, con una descripción opcional y carga diferida.
- Function tool definition
- File search tool definition
- Computer use tool definition
- Web search tool definition
- MCP tool definition
- Code interpreter tool definition
- Image generation tool definition
- Local shell tool definition
- Shell tool definition
- Custom tool definition
- Web search preview tool definition
- Hosted tool definition
- Sleep tool definition
- History tool definition
Controles cómo el agente selecciona qué herramientas usar. Puede ser 'ninguna' (sin herramientas), 'automático' (el modelo decide), 'requerido' (debe usar herramientas) o un objeto de selección de herramientas específico. Utilice esto para forzar o evitar el uso de herramientas.
none, auto, required Si permitir que el agente ejecute múltiples llamadas a herramientas en paralelo. Cuando es verdadero, el agente puede hacer llamadas a herramientas de manera concurrente para mayor eficiencia. Cuando es falso, las herramientas se llaman de manera secuencial. Por defecto, es verdadero para un mejor rendimiento.
El número total máximo de llamadas a herramientas que el agente puede hacer durante esta respuesta. Útil para controlar el tiempo de ejecución y prevenir bucles infinitos. Se aplica a todas las herramientas integradas como búsqueda web, búsqueda de archivos, intérprete de código, etc. Debe ser un entero positivo entre 1 y 300. Por defecto es 64.
1 <= x <= 300Opciones de configuración para modelos de razonamiento. Controla el nivel de esfuerzo de razonamiento (mínimo, bajo, medio, alto) y la verbosidad del resumen (automático, conciso, detallado). Solo aplicable a modelos específicos capaces de razonar.
Cuando es verdadero, el gateway inspecciona la complejidad de la solicitud y enruta automáticamente entre variantes cuantizadas, MoE y densas dentro de la familia de modelos solicitada.
Extensión de puerta de enlace. Cuando es verdadero junto con auto_routing, los metadatos de respuesta incluyen una decisión de enrutamiento serializada compacta para que puedas inspeccionar el nivel objetivo inferido incluso cuando no hay una variante compatible disponible.
El número máximo de tokens que el modelo puede generar en su salida. Establece un límite superior para controlar costos y la longitud de la respuesta. La salida real puede ser más corta si el modelo termina de manera natural. Debe ser un número entero positivo.
1 <= x <= 9007199254740991Controla la aleatoriedad en la salida del modelo. Valores más altos (por ejemplo, 1.5-2.0) hacen que la salida sea más aleatoria y creativa, mientras que valores más bajos (por ejemplo, 0.0-0.5) la hacen más enfocada y determinista. Debe estar entre 0 y 2.
0 <= x <= 2Parámetro de muestreo de núcleo. El modelo considera solo los tokens con una probabilidad acumulada top_p. Valores más bajos (por ejemplo, 0.1) hacen que la salida sea más enfocada, valores más altos (por ejemplo, 0.9) permiten más diversidad. Debe estar entre 0 y 1. Alternativa a la temperatura.
0 <= x <= 1Extensión de Gateway. Secuencia(s) de parada donde los proveedores ascendentes compatibles deben detener la generación. Las ejecuciones de evaluación también imponen esto como una protección de post-procesamiento.
Extensión de puerta de enlace. Parámetro de muestreo top-k específico del proveedor.
0 <= x <= 9007199254740991Extensión de puerta de enlace. Parámetro de muestreo min-p específico del proveedor.
0 <= x <= 1Extensión de puerta de enlace. Penalización de repetición específica del proveedor.
x >= 0Extensión de puerta de enlace. Alternar de muestreo específico del proveedor.
Extensión de puerta de enlace. Passthrough de cuerpo de solicitud específico del proveedor controlado.
Extensión de puerta de enlace. Opciones de plantilla de chat específicas del proveedor, como enable_thinking=false.
Extensión de Gateway. Alternar la preconfiguración específica del proveedor o el texto de preconfiguración.
Extensión de puerta de enlace. Interruptor de caché específico del proveedor donde sea compatible.
El número de tokens más probables para devolver en cada posición junto con sus probabilidades logarítmicas. Debe estar entre 0 y 20. Útil para comprender la confianza del modelo y explorar salidas alternativas.
0 <= x <= 20La estrategia de truncamiento para manejar entradas que exceden la ventana de contexto del modelo. 'auto' trunca automáticamente los mensajes antiguos para ajustarse, 'desactivado' devuelve un error si el contexto es demasiado largo. Por defecto, es 'auto'.
auto, disabled Estrategias de gestión del contexto para aplicar durante la generación de respuestas. Soporta la compresión, que resume el historial de conversación anterior cuando el contexto excede un umbral de tokens.
1Penaliza los nuevos tokens en función de si aparecen en el texto hasta ahora. Valores más altos aumentan la probabilidad de que el modelo hable sobre nuevos temas.
-2 <= x <= 2Penaliza los nuevos tokens según su frecuencia en el texto hasta ahora. Valores más altos disminuyen la probabilidad del modelo de repetir la misma línea al pie de la letra.
-2 <= x <= 2Especifica el nivel de procesamiento para atender la solicitud. 'auto' permite que el sistema elija, 'default' utiliza procesamiento estándar, 'flex' permite programación flexible para menor prioridad, 'priority' proporciona un procesamiento más rápido. Por defecto es 'auto'.
auto, default, flex, priority Un identificador estable utilizado para almacenar en caché prompts y contexto. Ayuda a reducir costos y latencia al reutilizar el procesamiento de prompts almacenados en caché. Útil para prompts que se utilizan repetidamente con variaciones menores.
Un identificador estable utilizado para ayudar a detectar y prevenir violaciones de políticas en múltiples solicitudes. Ayuda al sistema a identificar patrones de abuso o mal uso. Útil para el seguimiento de cumplimiento y la monitorización de la seguridad.
Tipos de salida que el modelo debe generar. Por defecto es ['text']. Incluye 'audio' para recibir una representación de audio de la respuesta de texto a través de TTS.
text, audio Configuración de salida de audio. Opcional cuando las modalidades incluyen 'audio'; se aplican los valores predeterminados si se omite.
OBSOLETO: Un identificador único para el usuario final. Utilice safety_identifier para la detección de violaciones de políticas y prompt_cache_key para el almacenamiento en caché en su lugar. Este campo se mantiene para compatibilidad hacia atrás.
Respuesta
Respuesta exitosa: devuelve eventos de transmisión (SSE) o un objeto de respuesta completo (JSON) dependiendo del parámetro de transmisión.
El estado general de la generación de respuestas. 'completado' significa finalizado con éxito, 'fallido' significa que ocurrió un error, 'en_proceso' significa que se está procesando actualmente, 'cancelado' significa cancelado por el usuario, 'en_cola' significa esperando a comenzar, 'incompleto' significa finalización parcial.
completed, failed, in_progress, cancelled, queued, incomplete -9007199254740991 <= x <= 9007199254740991null
-9007199254740991 <= x <= 9007199254740991Elemento del mensaje de entrada: Un mensaje con rol y contenido. Utiliza esto para turnos de usuario, asistente, sistema o desarrollador en entradas estructuradas.
- Input message item
- Output message item
- Output audio item
- File search call item
- Computer call item
- Computer call output item
- Web search call item
- Function call item
- Function call output item
- Reasoning item
- Image generation call item
- Code interpreter call item
- Local shell call item
- Local shell call output item
- Shell call item
- Shell call output item
- MCP list tools item
- MCP approval request item
- MCP approval response item
- MCP call item
- Custom tool call item
- Custom tool call output item
- Item reference item
- Compaction item
Modo de elección de herramientas: Selecciona cómo el modelo decide el uso de herramientas. Usa ninguno, automático o requerido.
none, auto, required Definición de herramienta de función: Define una herramienta de función que se puede llamar. Proporcione un nombre de herramienta y un esquema de parámetros, con una descripción opcional y carga diferida.
auto, disabled auto, default, flex, priority 0 <= x <= 20 <= x <= 200 <= x <= 1