Eșecuri pe categorii AI BENCHY
Respectarea instrucțiunilor: Răspuns greșit
Respectarea instrucțiunilor
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Respectarea instrucțiunilor, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↓.
Motive de eșec
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #80 | MiniMax M2.7 medium | Minimax | 1 | 3.7 | 0/2 | 12.6s |
| #59 | Qwen3.5-Flash none | Qwen | 1 | 6.3 | 1/2 | 8.81s |
| #87 | Qwen3 Coder Next none | Qwen | 2 | 4.8 | 0/2 | 7.71s |
| #33 | GLM 5.1 medium | Z.ai | 1 | 6.4 | 1/2 | 7.47s |
| #92 | Qwen3 Coder Next medium | Qwen | 1 | 4.8 | 0/2 | 7.34s |
| #28 | GPT-5.2 Chat none | OpenAI | 1 | 7.5 | 1/2 | 5.46s |
| #55 | MiMo-V2-Omni none | Xiaomi | 1 | 6.5 | 1/2 | 4.18s |
| #36 | GPT-5.3 Chat none | OpenAI | 1 | 8.3 | 1/2 | 3.29s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 6.2 | 1/2 | 2.97s |
| #48 | Gemma 4 31B none | 1 | 6.5 | 1/2 | 2.84s | |
| #72 | Hunter Alpha none | OpenRouter | 1 | 6.4 | 1/2 | 2.82s |
| #76 | Kimi K2.5 none | Moonshot AI | 1 | 6.5 | 1/2 | 2.67s |
| #65 | MiMo-V2-Pro none | Xiaomi | 1 | 6.5 | 1/2 | 2.51s |
| #77 | GLM 5 Turbo none | Z.ai | 1 | 6.5 | 1/2 | 2.13s |
| #58 | GLM 5V Turbo none | Z.ai | 1 | 6.5 | 1/2 | 1.97s |