AI BENCHY
Your ad here

AI BENCHY Fehler

Anweisungen nicht befolgt-Fehler

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

15

Gesamtfehler

180

Am stärksten betroffenes Modell

Mercury 2 1
Rang Modell Unternehmen Anweisungen nicht befolgt-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#13 GLM 5 medium Z.ai 1 8.4 13/18 23.3s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#52 Grok 4.1 Fast medium X AI 4 6.7 9/18 23.9s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#24 Gemma 4 26B A4B medium Google 1 8.0 13/18 25.0s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#6 Seed-2.0-Lite medium Bytedance Seed 2 8.6 13/18 30.4s
#80 MiniMax M2.7 medium Minimax 6 5.3 4/18 31.1s
#93 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#71 MiniMax M2.5 medium Minimax 3 5.7 5/18 39.6s
#57 GPT-5 Nano medium OpenAI 3 6.3 7/18 44.1s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#27 DeepSeek V3.2 medium DeepSeek 1 8.0 12/18 46.4s
#10 Qwen3.5-27B medium Qwen 2 8.4 13/18 53.0s

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)