AI BENCHY
Advertise here

AI BENCHY Fouten

Instructies niet gevolgd-fouten

Zie welke AI-modellen het vaakst tegen Instructies niet gevolgd aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.

Getoonde modellen

15

Totaal fouten

210

Meest getroffen model

MiniMax M2.7 5
Rang Model Bedrijf Instructies niet gevolgd-aantal Score Correcte tests Responstijd (gem.)
#125 MiniMax M2.7 medium Minimax 5 5.1 4/19 30.6s
#62 GPT-5.4 Mini medium OpenAI 4 7.2 10/19 16.0s
#69 GPT-5 Mini medium OpenAI 4 6.8 9/19 23.2s
#79 Grok 4.1 Fast medium X AI 4 6.5 9/19 24.0s
#101 gpt-oss-120b medium OpenAI 4 5.7 7/19 16.9s
#135 Hy3 preview none Tencent 4 4.6 4/19 13.0s
#144 Granite 4.1 8B none IBM Granite 4 4.1 2/19 743ms
#43 Step 3.5 Flash medium Stepfun 3 7.6 11/18 41.7s
#51 Gemini 3.1 Flash Lite high Google 3 7.5 11/18 62.0s
#60 GPT-5.2 medium OpenAI 3 7.2 11/19 15.2s
#70 Gemini 3.1 Flash Lite minimal Google 3 6.8 10/19 1.41s
#82 Mercury 2 medium Inception 3 6.3 8/19 2.23s
#87 Nemotron 3 Super medium NVIDIA 3 6.1 8/19 18.7s
#97 Cobuddy medium Baidu 3 5.8 7/19 36.5s
#98 Owl Alpha none Openrouter 3 5.8 7/19 6.83s

Topmodellen op Instructies niet gevolgd-aantal

Instructies niet gevolgd-aantal vs Score

Topmodellen op Responstijd (gem.)