Échecs par catégorie AI BENCHY
Combiné : Appel d'outil invalide
Combiné
Appel d'outil invalide
Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.
Raisons d'échec
Catégories
| Rang | Modèle | Entreprise | Nombre de Appel d'outil invalide | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | 0/1 | 1.88s |
| #122 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 3.22s |
| #32 | Gemini 3.5 Flash minimal | 1 | 3.0 | 0/1 | 3.56s | |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 3.0 | 0/1 | 4.22s |
| #145 | Laguna M.1 none | Poolside | 1 | 3.0 | 0/1 | 4.32s |
| #154 | Qwen3.5-9B none | Qwen | 1 | 3.0 | 0/1 | 5.91s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/1 | 6.04s |
| #106 | Grok 4.20 Beta none | X AI | 1 | 3.0 | 0/1 | 6.48s |
| #118 | Qwen3.6 27B none | Qwen | 1 | 3.0 | 0/1 | 9.95s |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 6.9 | 0/1 | 15.1s |
| #112 | GLM 5.1 none | Z.ai | 1 | 2.8 | 0/1 | 32.6s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 35.3s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 41.0s |
| #119 | Cobuddy medium | Baidu | 1 | 3.0 | 0/1 | 47.4s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 4.5 | 0/1 | 60.4s |