Échecs par catégorie AI BENCHY
Combiné : Appel d'outil invalide
Combiné
Appel d'outil invalide
Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↓.
Raisons d'échec
Catégories
| Rang | Modèle | Entreprise | Nombre de Appel d'outil invalide | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 6.5 | 0/1 | 115.9s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 4.5 | 0/1 | 112.0s |
| #78 | Qwen3.6 27B medium | Qwen | 1 | 7.0 | 0/1 | 83.1s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 2.8 | 0/1 | 65.6s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 4.5 | 0/1 | 60.4s |
| #119 | Cobuddy medium | Baidu | 1 | 3.0 | 0/1 | 47.4s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 41.0s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 35.3s |
| #112 | GLM 5.1 none | Z.ai | 1 | 2.8 | 0/1 | 32.6s |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 6.9 | 0/1 | 15.1s |
| #118 | Qwen3.6 27B none | Qwen | 1 | 3.0 | 0/1 | 9.95s |
| #106 | Grok 4.20 Beta none | X AI | 1 | 3.0 | 0/1 | 6.48s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/1 | 6.04s |
| #154 | Qwen3.5-9B none | Qwen | 1 | 3.0 | 0/1 | 5.91s |
| #145 | Laguna M.1 none | Poolside | 1 | 3.0 | 0/1 | 4.32s |