Eșecuri pe categorii AI BENCHY
Respectarea instrucțiunilor: Răspuns greșit
Respectarea instrucțiunilor
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Respectarea instrucțiunilor, ca să găsești mai repede punctele slabe.
Motive de eșec
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #154 | Qwen3.5-9B none | Qwen | 1 | 6.5 | 1/2 | 514ms |
| #155 | Mercury 2 none | Inception | 1 | 6.5 | 1/2 | 551ms |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.0 | 0/2 | 685ms |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 6.2 | 1/2 | 2.97s |
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 6.4 | 1/2 | 5.36s |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 6.3 | 1/2 | 752ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 4.8 | 0/2 | 541ms |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.6 | 0/2 | 344ms |