Eșecuri pe categorii AI BENCHY
Apelare instrumente
Răspuns greșit
Apelare instrumente
Răspuns greșit
Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Apelare instrumente, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↑.
Motive de eșec asociate
| Rang | Model | Companie | Număr de Răspuns greșit | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #53 | Grok 4.1 Fast none | X AI | 1 | 10.0 | 0/1 | 5.51s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 7.05s |