> ## Documentation Index
> Fetch the complete documentation index at: https://veniceai-mintlify-6ce01df5.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Rate Limits

> Request- und Token-Rate-Limits für die Venice API.

Rate-Limits variieren je nach Modell und Stufe. Die folgenden Standardlimits sind eine hilfreiche Referenz, aber der API-Endpoint `/api_keys/rate_limits` ist die maßgebliche Quelle, um Ihre aktuellen Limits abzurufen. Sie können Ihre genauen Limits jederzeit prüfen:

<CardGroup cols={2}>
  <Card title="Ihre Limits ansehen" icon="gauge-high" href="/api-reference/endpoint/api_keys/rate_limits?playground=open">
    Interaktiver Playground
  </Card>

  <Card title="Rate-Limit-Logs" icon="clock-rotate-left" href="/api-reference/endpoint/api_keys/rate_limit_logs?playground=open">
    Sehen Sie, welche Anfragen Limits erreicht haben
  </Card>
</CardGroup>

```bash theme={"system"}
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"
```

## Standardlimits

### Textmodelle

Textmodelle sind in Stufen nach Größe gruppiert. Jede Modellkarte auf der [Models-Seite](/models/text) zeigt ihr Stufen-Badge an.

| Stufe | Requests/min | Tokens/min |
| :---- | -----------: | ---------: |
| XS    |          500 |  1.000.000 |
| S     |           75 |    750.000 |
| M     |           50 |    750.000 |
| L     |           20 |    500.000 |

<Accordion title="Welche Modelle sind in jeder Stufe?">
  **XS** `qwen3-4b` `llama-3.2-3b`

  **S** `mistral-31-24b` `venice-uncensored`

  **M** `zai-org-glm-5` `qwen3-next-80b` `google-gemma-3-27b-it`

  **L** `qwen3-235b-a22b-instruct-2507` `qwen3-235b-a22b-thinking-2507` `deepseek-ai-DeepSeek-R1` `grok-41-fast` `kimi-k2-thinking` `gemini-3-pro-preview` `hermes-3-llama-3.1-405b` `qwen3-coder-480b-a35b-instruct` `zai-org-glm-4.7` `openai-gpt-oss-120b`
</Accordion>

### Andere Modelle

| Typ              | Requests/min |
| :--------------- | -----------: |
| Image            |           20 |
| Audio            |           60 |
| Embedding        |          500 |
| Video (queue)    |           40 |
| Video (retrieve) |          120 |

## Fehlerbehandlung

Fehlgeschlagene Anfragen (500, 503, 429) sollten mit exponentiellem Backoff wiederholt werden.

Speziell bei 429-Fehlern prüfen Sie den Header `x-ratelimit-reset-requests` für den genauen Unix-Zeitstempel, ab dem Sie es erneut versuchen können. Die meisten HTTP-Bibliotheken verfügen über integrierte Retry-Mechanismen, die dies automatisch übernehmen.

### Missbrauchsschutz

Wenn Sie mehr als 20 fehlgeschlagene Anfragen in 30 Sekunden erzeugen, blockiert die API weitere Anfragen für 30 Sekunden:

```
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.
```

## Response-Header

Jede Antwort enthält diese Header:

| Header                           | Beschreibung                                          |
| :------------------------------- | :---------------------------------------------------- |
| `x-ratelimit-limit-requests`     | Max. Anfragen, die im aktuellen Fenster erlaubt sind  |
| `x-ratelimit-remaining-requests` | Verbleibende Anfragen im aktuellen Fenster            |
| `x-ratelimit-reset-requests`     | Unix-Zeitstempel, wann das Fenster zurückgesetzt wird |
| `x-ratelimit-limit-tokens`       | Max. erlaubte Tokens pro Minute                       |
| `x-ratelimit-remaining-tokens`   | Verbleibende Tokens in der aktuellen Minute           |
| `x-ratelimit-reset-tokens`       | Sekunden bis zum Zurücksetzen des Token-Limits        |

## Partner-Stufe

Partner erhalten deutlich höhere Rate-Limits:

| Stufe | Requests/min | Tokens/min |
| :---- | -----------: | ---------: |
| XS    |          500 |  2.000.000 |
| S     |          150 |  1.500.000 |
| M     |          100 |  1.500.000 |
| L     |           60 |  1.000.000 |

| Typ       | Requests/min |
| :-------- | -----------: |
| Image     |           60 |
| Audio     |          120 |
| Embedding |          500 |

Wenn Sie konstant Ihre Rate-Limits erreichen und Ihre Nutzungsmuster eine **anhaltende Nachfrage über die Zeit** zeigen, kontaktieren Sie uns, um über Partner-Zugang zu sprechen: [api@venice.ai](mailto:api@venice.ai).

Partner-Tier-Limits können an Ihre spezifischen Anforderungen angepasst werden.