AI BENCHY
Your ad here

AI BENCHY Kategoriefehler

Befolgung von Anweisungen: Anweisungen nicht befolgt

Befolgung von Anweisungen
Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Befolgung von Anweisungen am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

15

Gesamtfehler

22

Am stärksten betroffenes Modell

Gemini 3.1 Flash Lite Preview 1
Rang Modell Unternehmen Anweisungen nicht befolgt-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#11 Gemini 3.1 Flash Lite Preview high Google 1 7.9 1/2 70.1s
#25 Grok 4.20 Beta medium X AI 1 8.3 1/2 4.97s
#30 Step 3.5 Flash medium Stepfun 1 8.5 1/2 4.98s
#35 MiMo-V2-Omni medium Xiaomi 1 8.3 1/2 4.92s
#44 GPT-5.4 Mini medium OpenAI 1 7.4 1/2 2.50s
#45 GPT-5 Mini medium OpenAI 1 8.0 1/2 15.7s
#51 Nemotron 3 Super medium NVIDIA 1 7.2 1/2 7.72s
#52 Grok 4.1 Fast medium X AI 1 6.6 1/2 5.30s
#56 Grok 4.20 Multi Agent Beta medium X AI 1 8.3 1/2 4.63s
#57 GPT-5 Nano medium OpenAI 1 8.5 1/2 11.9s
#60 Gemma 4 26B A4B none Google 1 4.4 0/2 1.08s
#71 MiniMax M2.5 medium Minimax 1 8.1 1/2 4.64s
#75 GLM 5.1 none Z.ai 1 8.3 1/2 1.58s
#78 Trinity Large Preview none Arcee AI 1 4.1 0/2 1.09s
#79 Grok 4.20 Beta none X AI 1 4.8 0/2 687ms

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten