AI BENCHY
Your ad here

AI BENCHY Fehler

Anweisungen nicht befolgt-Fehler

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

15

Gesamtfehler

180

Am stärksten betroffenes Modell

MiniMax M2.7 6
Rang Modell Unternehmen Anweisungen nicht befolgt-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#10 Qwen3.5-27B medium Qwen 2 8.4 13/18 53.0s
#16 GPT-5.4 medium OpenAI 2 8.2 13/18 18.6s
#18 GLM 5 Turbo medium Z.ai 2 8.1 12/18 17.7s
#29 Gemini 3.1 Flash Lite Preview none Google 2 7.9 12/18 1.30s
#31 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s
#35 MiMo-V2-Omni medium Xiaomi 2 7.7 11/18 16.8s
#36 GPT-5.3 Chat none OpenAI 2 7.7 11/18 5.88s
#46 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#50 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#55 MiMo-V2-Omni none Xiaomi 2 6.5 8/18 1.99s
#58 GLM 5V Turbo none Z.ai 2 6.2 8/18 3.10s
#63 Qwen3.5-35B-A3B none Qwen 2 6.1 7/18 3.82s
#65 MiMo-V2-Pro none Xiaomi 2 6.0 7/18 2.39s
#67 Qwen3.5-27B none Qwen 2 5.9 6/18 1.74s
#72 Hunter Alpha none OpenRouter 2 5.7 6/18 4.58s

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)