AI BENCHY Kategoriefehler
Befolgung von Anweisungen: Anweisungen nicht befolgt
Befolgung von Anweisungen
Anweisungen nicht befolgt
Sieh, welche KI-Modelle bei Befolgung von Anweisungen am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst.
Angezeigte Modelle
15
Gesamtfehler
22
Am stärksten betroffenes Modell
Gemini 3.1 Flash Lite Preview 1| Rang | Modell | Unternehmen | Anweisungen nicht befolgt-Anzahl | Kategorie-Score | Korrekte Tests | Antwortzeit (Durchschnitt) |
|---|---|---|---|---|---|---|
| #11 | Gemini 3.1 Flash Lite Preview high | 1 | 7.9 | 1/2 | 70.1s | |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 8.3 | 1/2 | 4.97s |
| #30 | Step 3.5 Flash medium | Stepfun | 1 | 8.5 | 1/2 | 4.98s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 8.3 | 1/2 | 4.92s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 7.4 | 1/2 | 2.50s |
| #45 | GPT-5 Mini medium | OpenAI | 1 | 8.0 | 1/2 | 15.7s |
| #51 | Nemotron 3 Super medium | NVIDIA | 1 | 7.2 | 1/2 | 7.72s |
| #52 | Grok 4.1 Fast medium | X AI | 1 | 6.6 | 1/2 | 5.30s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 8.3 | 1/2 | 4.63s |
| #57 | GPT-5 Nano medium | OpenAI | 1 | 8.5 | 1/2 | 11.9s |
| #60 | Gemma 4 26B A4B none | 1 | 4.4 | 0/2 | 1.08s | |
| #71 | MiniMax M2.5 medium | Minimax | 1 | 8.1 | 1/2 | 4.64s |
| #75 | GLM 5.1 none | Z.ai | 1 | 8.3 | 1/2 | 1.58s |
| #78 | Trinity Large Preview none | Arcee AI | 1 | 4.1 | 0/2 | 1.09s |
| #79 | Grok 4.20 Beta none | X AI | 1 | 4.8 | 0/2 | 687ms |