AI BENCHY Fehler
Anweisungen nicht befolgt-Fehler
Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Punktzahl ↑.
| Rang | Modell | Unternehmen | Anweisungen nicht befolgt-Anzahl | Punktzahl | Korrekte Tests | Antwortzeit (Durchschnitt) |
|---|---|---|---|---|---|---|
| #30 | Qwen3.5-27B medium | Qwen | 2 | 7.8 | 13/21 | 68.4s |
| #28 | Gemini 2.5 Flash medium | 1 | 7.8 | 14/21 | 15.5s | |
| #26 | Qwen3.6 Plus medium | Qwen | 1 | 7.9 | 14/21 | 30.7s |
| #24 | GPT-5.2 Chat none | OpenAI | 1 | 7.9 | 14/21 | 7.13s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 8.0 | 14/21 | 23.0s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 8.0 | 14/21 | 20.4s |
| #21 | GPT-5.4 medium | OpenAI | 2 | 8.0 | 14/21 | 22.3s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 8.2 | 14/21 | 47.1s |
| #17 | GLM 5 medium | Z.ai | 1 | 8.3 | 15/21 | 33.5s |
| #15 | GPT-5.3-Codex medium | OpenAI | 2 | 8.4 | 15/21 | 16.2s |
| #13 | Grok 4.20 Beta medium | X AI | 1 | 8.5 | 14/18 | 9.75s |
| #12 | Gemini 3.1 Flash Lite Preview high | 1 | 8.6 | 13/16 | 68.1s | |
| #7 | Gemini 3.5 Flash medium | 1 | 9.0 | 18/21 | 4.94s |