限速与配额
网关提供多层限速保护,保障服务稳定性和公平使用。
限速层级
| 层级 | 作用范围 | 说明 |
|---|---|---|
| Key 消费限额 | 单个 API Key | 最大消费额度,支持自动重置(每日 / 每周 / 每月) |
| 余额检查 | 单个用户 | 余额 ≤ 0 时拒绝请求 |
| Token 配额 | 用户 / 分组 | 每日 Token 上限(如 50 万 tokens/天) |
| RPM | 用户 / 路由 | 每分钟请求次数上限 |
| 并发数 | 单个用户 | 最大同时请求数 |
优先级规则
同一限速类型在多个层级都有配置时:
Consumer(用户)> Consumer Group(分组)> Route(全局) 高优先级覆盖低优先级。用户级别的配置会覆盖其所在分组的限制。
响应头
每次响应都包含 OpenAI 兼容的限速响应头:
X-RateLimit-Limit-Tokens: 500000
X-RateLimit-Remaining-Tokens: 495000
X-RateLimit-Reset-Tokens: 1711929600 限速错误
| 状态码 | 含义 |
|---|---|
| 403 | 余额不足或 Key 消费限额已达上限 |
| 429 | Token 配额、RPM 或并发数超限 |
触发限速后请稍等后重试。X-RateLimit-Reset-Tokens 响应头会告知限额重置的时间戳。