Échecs par catégorie AI BENCHY
Combiné : Appel d'outil invalide
Combiné
Appel d'outil invalide
Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles.
Raisons d'échec
Catégories
| Rang | Modèle | Entreprise | Nombre de Appel d'outil invalide | Score de catégorie | Tests corrects | Temps de réponse (moy.) |
|---|---|---|---|---|---|---|
| #145 | Laguna M.1 none | Poolside | 1 | 3.0 | 0/1 | 4.32s |
| #154 | Qwen3.5-9B none | Qwen | 1 | 3.0 | 0/1 | 5.91s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 2.8 | 0/1 | 65.6s |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | 0/1 | 1.88s |