AI BENCHY
Your ad here

AI BENCHY Fouten

Instructies niet gevolgd-fouten

Zie welke AI-modellen het vaakst tegen Instructies niet gevolgd aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) โ†‘.

Getoonde modellen

15

Totaal fouten

180

Meest getroffen model

Mercury 2 1
Rang Model Bedrijf Instructies niet gevolgd-aantal Score Correcte tests Responstijd (gem.)
#13 GLM 5 medium Z.ai 1 8.4 13/18 23.3s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#52 Grok 4.1 Fast medium X AI 4 6.7 9/18 23.9s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#24 Gemma 4 26B A4B medium Google 1 8.0 13/18 25.0s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#6 Seed-2.0-Lite medium Bytedance Seed 2 8.6 13/18 30.4s
#80 MiniMax M2.7 medium Minimax 6 5.3 4/18 31.1s
#93 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#71 MiniMax M2.5 medium Minimax 3 5.7 5/18 39.6s
#57 GPT-5 Nano medium OpenAI 3 6.3 7/18 44.1s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#27 DeepSeek V3.2 medium DeepSeek 1 8.0 12/18 46.4s
#10 Qwen3.5-27B medium Qwen 2 8.4 13/18 53.0s

Topmodellen op Instructies niet gevolgd-aantal

Instructies niet gevolgd-aantal vs Score

Topmodellen op Responstijd (gem.)