Eșecuri pe categorii AI BENCHY
Apelare instrumente: Nu a urmat instrucțiunile
Apelare instrumente
Nu a urmat instrucțiunile
Vezi ce modele AI au cele mai mari șanse să întâmpine Nu a urmat instrucțiunile la Apelare instrumente, ca să găsești mai repede punctele slabe.
Motive de eșec
| Rang | Model | Companie | Număr de Nu a urmat instrucțiunile | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #25 | Grok 4.20 Beta medium | X AI | 1 | 3.0 | 0/1 | 12.4s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 4.7 | 0/1 | 9.62s |
| #47 | Grok 4.20 medium | X AI | 1 | 3.0 | 0/1 | 13.7s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 12.0s |
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | 0/1 | 2.32s |
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 4.7 | 0/1 | 16.0s |