> ## Documentation Index
> Fetch the complete documentation index at: https://veniceai-mintlify-6ce01df5.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# 속도 제한

> Venice API의 요청 및 토큰 속도 제한.

속도 제한은 모델 및 등급에 따라 다릅니다. 아래의 기본 제한은 유용한 참고 자료이지만, `/api_keys/rate_limits` API 엔드포인트가 현재 제한을 가져오는 표준 방법입니다. 언제든지 정확한 제한을 확인할 수 있습니다:

<CardGroup cols={2}>
  <Card title="제한 보기" icon="gauge-high" href="/api-reference/endpoint/api_keys/rate_limits?playground=open">
    인터랙티브 플레이그라운드
  </Card>

  <Card title="속도 제한 로그" icon="clock-rotate-left" href="/api-reference/endpoint/api_keys/rate_limit_logs?playground=open">
    제한에 도달한 요청 확인
  </Card>
</CardGroup>

```bash theme={"system"}
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"
```

## 기본 제한

### 텍스트 모델

텍스트 모델은 크기에 따라 등급으로 그룹화됩니다. [모델 페이지](/models/text)의 각 모델 카드에는 해당 등급 배지가 표시됩니다.

| 등급 | 요청/분 |      토큰/분 |
| :- | ---: | --------: |
| XS |  500 | 1,000,000 |
| S  |   75 |   750,000 |
| M  |   50 |   750,000 |
| L  |   20 |   500,000 |

<Accordion title="각 등급에 어떤 모델이 있나요?">
  **XS** `qwen3-4b` `llama-3.2-3b`

  **S** `mistral-31-24b` `venice-uncensored`

  **M** `zai-org-glm-5` `qwen3-next-80b` `google-gemma-3-27b-it`

  **L** `qwen3-235b-a22b-instruct-2507` `qwen3-235b-a22b-thinking-2507` `deepseek-ai-DeepSeek-R1` `grok-41-fast` `kimi-k2-thinking` `gemini-3-pro-preview` `hermes-3-llama-3.1-405b` `qwen3-coder-480b-a35b-instruct` `zai-org-glm-4.7` `openai-gpt-oss-120b`
</Accordion>

### 기타 모델

| 유형             | 요청/분 |
| :------------- | ---: |
| 이미지            |   20 |
| 오디오            |   60 |
| 임베딩            |  500 |
| 비디오 (queue)    |   40 |
| 비디오 (retrieve) |  120 |

## 오류 처리

실패한 요청(500, 503, 429)은 지수 백오프로 재시도해야 합니다.

특히 429 오류의 경우, 재시도할 수 있는 정확한 Unix 타임스탬프는 `x-ratelimit-reset-requests` 헤더를 확인하세요. 대부분의 HTTP 라이브러리는 이를 자동으로 처리하는 내장 재시도 메커니즘을 가지고 있습니다.

### 남용 방지

30초 내에 20개 이상의 실패한 요청을 생성하면 API는 30초 동안 추가 요청을 차단합니다:

```
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.
```

## 응답 헤더

모든 응답에는 다음 헤더가 포함됩니다:

| Header                           | Description           |
| :------------------------------- | :-------------------- |
| `x-ratelimit-limit-requests`     | 현재 윈도우에서 허용된 최대 요청    |
| `x-ratelimit-remaining-requests` | 현재 윈도우에서 남은 요청        |
| `x-ratelimit-reset-requests`     | 윈도우가 재설정되는 Unix 타임스탬프 |
| `x-ratelimit-limit-tokens`       | 분당 허용된 최대 토큰          |
| `x-ratelimit-remaining-tokens`   | 현재 분에 남은 토큰           |
| `x-ratelimit-reset-tokens`       | 토큰 제한이 재설정될 때까지의 초    |

## 파트너 등급

파트너는 훨씬 더 높은 속도 제한을 받습니다:

| 등급 | 요청/분 |      토큰/분 |
| :- | ---: | --------: |
| XS |  500 | 2,000,000 |
| S  |  150 | 1,500,000 |
| M  |  100 | 1,500,000 |
| L  |   60 | 1,000,000 |

| 유형  | 요청/분 |
| :-- | ---: |
| 이미지 |   60 |
| 오디오 |  120 |
| 임베딩 |  500 |

지속적으로 속도 제한에 도달하고 사용 패턴이 **지속적인 수요**를 보이는 경우, 파트너 액세스를 논의하기 위해 연락하세요: [api@venice.ai](mailto:api@venice.ai).

파트너 등급 제한은 특정 요구 사항에 따라 조정할 수 있습니다.