AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Échecs par catégorie AI BENCHY

Combiné : Appel d'outil invalide

Combiné
Appel d'outil invalide

Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

15

Échecs totaux

19

Modèle le plus touché

DeepSeek V3.2 1
Rang Modèle Entreprise Nombre de Appel d'outil invalide Score de catégorie Tests corrects Temps de réponse (moy.)
#133 DeepSeek V3.2 none DeepSeek 1 6.5 0/1 115.9s
#139 DeepSeek V4 Flash none DeepSeek 1 4.5 0/1 112.0s
#78 Qwen3.6 27B medium Qwen 1 7.0 0/1 83.1s
#158 GLM 4.7 Flash medium Z.ai 1 2.8 0/1 65.6s
#129 MiniMax M2.5 medium Minimax 1 4.5 0/1 60.4s
#119 Cobuddy medium Baidu 1 3.0 0/1 47.4s
#130 MiniMax M2.7 medium Minimax 1 4.7 0/1 41.0s
#138 Ling-2.6-flash none Inclusionai 1 3.0 0/1 35.3s
#112 GLM 5.1 none Z.ai 1 2.8 0/1 32.6s
#59 GLM 5V Turbo medium Z.ai 1 6.9 0/1 15.1s
#118 Qwen3.6 27B none Qwen 1 3.0 0/1 9.95s
#106 Grok 4.20 Beta none X AI 1 3.0 0/1 6.48s
#127 Grok 4.20 none X AI 1 3.0 0/1 6.04s
#154 Qwen3.5-9B none Qwen 1 3.0 0/1 5.91s
#145 Laguna M.1 none Poolside 1 3.0 0/1 4.32s

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé