AI BENCHY Categoriefouten
Programmeren: Instructies niet gevolgd
Programmeren
Instructies niet gevolgd
Zie welke AI-modellen op Programmeren het meest kans hebben op Instructies niet gevolgd, zodat je zwakke punten sneller ziet. Sorteren op: Correcte tests โ.
Foutredenen
| Rang | Model | Bedrijf | Instructies niet gevolgd-aantal | Categoriescore | Correcte tests | Responstijd (gem.) |
|---|---|---|---|---|---|---|
| #6 | Gemini 3.5 Flash medium | 1 | 6.8 | 1/2 | 9.91s | |
| #24 | Gemini 3.5 Flash minimal | 1 | 7.0 | 1/2 | 3.39s | |
| #63 | Claude Opus 4.6 medium | Anthropic | 1 | 7.2 | 1/2 | 29.4s |
| #100 | Owl Alpha medium | Openrouter | 1 | 6.6 | 1/2 | 19.1s |
| #110 | Kimi K2.6 none | Moonshot AI | 1 | 6.8 | 1/2 | 122.8s |
| #74 | Laguna M.1 medium | Poolside | 1 | 4.3 | 0/1 | 35.6s |
| #80 | DeepSeek V4 Pro high | DeepSeek | 1 | 2.8 | 0/2 | 51.8s |
| #87 | Grok 4.1 Fast medium | X AI | 1 | 2.3 | 0/1 | 23.6s |
| #96 | Nemotron 3 Super medium | NVIDIA | 1 | 3.1 | 0/2 | 62.4s |
| #101 | Qwen3.5 Plus 2026-04-20 none | Qwen | 1 | 4.4 | 0/2 | 2.08s |
| #105 | Cobuddy medium | Baidu | 1 | 4.1 | 0/2 | 79.2s |
| #114 | DeepSeek V3.2 none | DeepSeek | 1 | 3.1 | 0/2 | 20.9s |
| #115 | MiMo-V2.5-Pro none | Xiaomi | 1 | 5.0 | 0/2 | 1.80s |
| #149 | MiMo-V2-Flash none | Xiaomi | 1 | 4.9 | 0/2 | 2.04s |
| #151 | Qwen3.5-9B medium | Qwen | 1 | 2.8 | 0/2 | 135.6s |