AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Fouten

Instructies niet gevolgd-fouten

Zie welke AI-modellen het vaakst tegen Instructies niet gevolgd aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.

Getoonde modellen

15

Totaal fouten

225

Meest getroffen model

MiniMax M2.7 5
Rang Model Bedrijf Instructies niet gevolgd-aantal Score Correcte tests Responstijd (gem.)
#60 GLM 5V Turbo medium Z.ai 1 7.4 11/20 20.3s
#63 Claude Opus 4.6 medium Anthropic 1 7.2 12/20 25.4s
#67 MiMo-V2-Flash medium Xiaomi 1 7.1 11/20 20.3s
#68 Seed-2.0-Mini medium Bytedance Seed 1 7.1 11/20 79.2s
#69 Claude Sonnet 4.6 none Anthropic 1 7.0 11/20 5.33s
#74 Laguna M.1 medium Poolside 1 6.9 12/19 14.4s
#76 Gemma 4 31B none Google 1 6.7 10/20 3.84s
#83 Qwen3.6 27B medium Qwen 1 6.6 9/20 57.7s
#85 Gemini 3.1 Flash Lite none Google 1 6.6 9/20 1.09s
#92 Gemini 2.5 Flash none Google 1 6.2 8/20 893ms
#93 MiMo-V2-Omni none Xiaomi 1 6.2 8/20 2.44s
#109 GLM 4.7 Flash none Z.ai 1 5.6 6/20 2.98s
#112 GPT-5.4 none OpenAI 1 5.6 7/20 1.46s
#113 GLM 5.1 none Z.ai 1 5.6 6/20 4.16s
#116 Qwen3.6 Flash none Qwen 1 5.5 7/20 1.64s

Topmodellen op Instructies niet gevolgd-aantal

Instructies niet gevolgd-aantal vs Score

Topmodellen op Responstijd (gem.)