AI BENCHY Fouten
Instructies niet gevolgd-fouten
Zie welke AI-modellen het vaakst tegen Instructies niet gevolgd aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Aantal fouten โ.
| Rang | Model | Bedrijf | Instructies niet gevolgd-aantal | Score | Correcte tests | Responstijd (gem.) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 3 | 5.5 | 7/21 | 9.88s |
| #124 | Kimi K2.6 none | Moonshot AI | 3 | 5.5 | 7/21 | 13.3s |
| #129 | MiniMax M2.5 medium | Minimax | 3 | 5.3 | 5/21 | 65.4s |
| #137 | Elephant Alpha none | Openrouter | 3 | 5.1 | 5/21 | 1.22s |
| #144 | GPT-5.4 Mini none | OpenAI | 3 | 4.9 | 5/21 | 1.13s |
| #150 | Qwen3 Coder Next medium | Qwen | 3 | 4.6 | 4/21 | 8.58s |
| #151 | Trinity Large Preview none | Arcee AI | 3 | 4.6 | 4/21 | 2.98s |
| #157 | Grok 4.1 Fast none | X AI | 3 | 4.4 | 3/19 | 1.62s |
| #86 | Grok 4.1 Fast medium | X AI | 4 | 6.5 | 9/19 | 23.8s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 4 | 5.5 | 6/21 | 1.78s |
| #156 | Hy3 preview none | Tencent | 4 | 4.4 | 4/21 | 12.9s |
| #163 | Granite 4.1 8B none | IBM Granite | 4 | 4.0 | 2/21 | 728ms |
| #130 | MiniMax M2.7 medium | Minimax | 5 | 5.3 | 5/21 | 38.2s |