Categorie AI BENCHY
Clasament Apelare instrumente
Vezi ce modele AI se descurcă cel mai bine la Apelare instrumente, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Timp de răspuns (mediu) ↓.
| Rang | Model | Companie | Scor Apelare instrumente | Scor | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #90 | Qwen3.5-9B none | Qwen | 10.0 | 4.8 | 1/1 | 1.27s |
| #91 | Mercury 2 none | Inception | 10.0 | 4.8 | 1/1 | 1.27s |
| #14 | Gemma 4 31B medium | 3.0 | 8.3 | 0/1 | 0ms | |
| #33 | GLM 5.1 medium | Z.ai | 3.0 | 7.8 | 0/1 | 0ms |
| #48 | Gemma 4 31B none | 3.0 | 6.9 | 0/1 | 0ms | |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 3.0 | 6.4 | 0/1 | 0ms |
| #84 | gpt-oss-120b none | OpenAI | 3.0 | 5.2 | 0/1 | 0ms |
| #98 | LFM2-24B-A2B none | Liquid | 3.0 | 4.1 | 0/1 | 0ms |