AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Fehler

Anweisungen nicht befolgt-Fehler

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

15

Gesamtfehler

210

Am stärksten betroffenes Modell

MiniMax M2.7 5
Rang Modell Unternehmen Anweisungen nicht befolgt-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#125 MiniMax M2.7 medium Minimax 5 5.1 4/19 30.6s
#62 GPT-5.4 Mini medium OpenAI 4 7.2 10/19 16.0s
#69 GPT-5 Mini medium OpenAI 4 6.8 9/19 23.2s
#79 Grok 4.1 Fast medium X AI 4 6.5 9/19 24.0s
#101 gpt-oss-120b medium OpenAI 4 5.7 7/19 16.9s
#135 Hy3 preview none Tencent 4 4.6 4/19 13.0s
#144 Granite 4.1 8B none IBM Granite 4 4.1 2/19 743ms
#43 Step 3.5 Flash medium Stepfun 3 7.6 11/18 41.7s
#51 Gemini 3.1 Flash Lite high Google 3 7.5 11/18 62.0s
#60 GPT-5.2 medium OpenAI 3 7.2 11/19 15.2s
#70 Gemini 3.1 Flash Lite minimal Google 3 6.8 10/19 1.41s
#82 Mercury 2 medium Inception 3 6.3 8/19 2.23s
#87 Nemotron 3 Super medium NVIDIA 3 6.1 8/19 18.7s
#97 Cobuddy medium Baidu 3 5.8 7/19 36.5s
#98 Owl Alpha none Openrouter 3 5.8 7/19 6.83s

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)