AI BENCHY Categoriefouten
Puzzeloplossing: Instructies niet gevolgd
Puzzeloplossing
Instructies niet gevolgd
Zie welke AI-modellen op Puzzeloplossing het meest kans hebben op Instructies niet gevolgd, zodat je zwakke punten sneller ziet. Sorteren op: Correcte tests โ.
Foutredenen
| Rang | Model | Bedrijf | Instructies niet gevolgd-aantal | Categoriescore | Correcte tests | Responstijd (gem.) |
|---|---|---|---|---|---|---|
| #12 | Gemini 3.1 Flash Lite Preview high | 1 | 7.7 | 2/3 | 46.7s | |
| #15 | GPT-5.3-Codex medium | OpenAI | 1 | 9.0 | 2/3 | 5.05s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 9.0 | 2/3 | 10.2s |
| #21 | GPT-5.4 medium | OpenAI | 1 | 8.2 | 2/3 | 9.14s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 8.7 | 2/3 | 5.23s |
| #30 | Qwen3.5-27B medium | Qwen | 1 | 8.2 | 2/3 | 59.6s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 1 | 8.2 | 2/3 | 26.1s |
| #33 | Hy3 preview medium | Tencent | 1 | 7.7 | 2/3 | 11.1s |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 8.2 | 2/3 | 6.29s |
| #42 | GPT-5.2 medium | OpenAI | 1 | 7.5 | 2/3 | 5.80s |
| #45 | GPT-5.4 Mini medium | OpenAI | 1 | 7.8 | 2/3 | 4.37s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 7.7 | 2/3 | 31.5s |
| #38 | Grok 4.3 medium | X AI | 1 | 5.9 | 1/3 | 22.5s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 6.7 | 1/3 | 5.31s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 6.4 | 1/3 | 5.08s |