AI BENCHY Kategorie
Befolgung von Anweisungen-Ranking
Sieh, welche KI-Modelle bei Befolgung von Anweisungen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.
Angezeigte Modelle
15
Durchschnittlicher Wert für Befolgung von Anweisungen-Score
8.0
Bestes Modell
Grok 4.1 Fast 3.0| Rang | Modell | Unternehmen | Befolgung von Anweisungen-Score | Punktzahl | Korrekte Tests | Antwortzeit (Durchschnitt) |
|---|---|---|---|---|---|---|
| #59 | Qwen3.5-Flash none | Qwen | 6.3 | 6.2 | 1/2 | 8.81s |
| #63 | Qwen3.5-35B-A3B none | Qwen | 6.3 | 6.1 | 1/2 | 809ms |
| #86 | GPT-5.4 Mini none | OpenAI | 6.3 | 5.1 | 1/2 | 728ms |
| #72 | Hunter Alpha none | OpenRouter | 6.4 | 5.7 | 1/2 | 2.82s |
| #21 | Gemini 3 Flash Preview none | 6.4 | 8.1 | 1/2 | 1.58s | |
| #33 | GLM 5.1 medium | Z.ai | 6.4 | 7.8 | 1/2 | 7.47s |
| #97 | Qwen3.5-9B medium | Qwen | 6.4 | 4.4 | 1/2 | 17.1s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 6.5 | 7.4 | 1/2 | 1.96s |
| #48 | Gemma 4 31B none | 6.5 | 6.9 | 1/2 | 2.84s | |
| #55 | MiMo-V2-Omni none | Xiaomi | 6.5 | 6.5 | 1/2 | 4.18s |
| #58 | GLM 5V Turbo none | Z.ai | 6.5 | 6.2 | 1/2 | 1.97s |
| #65 | MiMo-V2-Pro none | Xiaomi | 6.5 | 6.0 | 1/2 | 2.51s |
| #66 | GPT-5.4 none | OpenAI | 6.5 | 5.9 | 1/2 | 1.07s |
| #69 | Kimi K2.6 none | Moonshot AI | 6.5 | 5.8 | 1/2 | 1.64s |
| #74 | GLM 4.7 Flash none | Z.ai | 6.5 | 5.6 | 1/2 | 888ms |