429 Too Many Requests antes de que la solicitud llegue al modelo. No se consumen tokens y no se factura el uso.
Configuración de límites de tasa
Los límites de tasa se establecen por clave de API en el momento de la provisión. Las granularidades disponibles son:| Ventana | Ejemplo |
|---|---|
| Por segundo | 10 solicitudes/segundo |
| Por minuto | 60 solicitudes/minuto |
| Por hora | 1,000 solicitudes/hora |
| Por día | 10,000 solicitudes/día |
Demostración: limitación de tasa en acción
El siguiente ejemplo utiliza una clave de API real configurada con un límite de tasa de 1 solicitud por minuto. La primera solicitud tiene éxito, y la segunda —enviada inmediatamente después— es rechazada con HTTP 429.Solicitud 1 — exitosa
Solicitud 2 — limitada por tasa (enviada inmediatamente después)
Ejemplo programático
La respuesta 429
Cuando una solicitud es limitada por tasa, el gateway devuelve:| Campo | Valor |
|---|---|
| Estado HTTP | 429 Too Many Requests |
| Content-Type | application/json |
| Cuerpo | {"error": "Rate limit exceeded"} |
| Tokens consumidos | 0 — la solicitud nunca llega al modelo |
| Uso facturado | Ninguno |
OpenAI.RateLimitError con err.status === 429.
El SDK de MKA1 lanza un APIError con err.statusCode === 429.
Manejo de límites de tasa en tu aplicación
Cuando tu aplicación recibe una respuesta 429, reintenta con retroceso exponencial:Ver también
- Autenticación para la configuración de la clave de API y el patrón
X-On-Behalf-Of. - Autorización para el control de acceso a nivel de recurso.
- Generar una respuesta para la estructura básica de la solicitud de Responses.