AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Échecs AI BENCHY

Échecs Appel d'outil invalide

Voyez quels modèles d'IA rencontrent le plus souvent Appel d'outil invalide, pour repérer les risques de fiabilité avant de choisir. Trier par: Score ↑.

Modèles affichés

9

Échecs totaux

26

Modèle le plus touché

Granite 4.1 8B 1
Rang Modèle Entreprise Nombre de Appel d'outil invalide Score Tests corrects Temps de réponse (moy.)
#122 GLM 4.7 Flash none Z.ai 1 5.5 6/21 2.86s
#119 Cobuddy medium Baidu 1 5.6 7/21 39.9s
#118 Qwen3.6 27B none Qwen 1 5.6 7/21 3.72s
#112 GLM 5.1 none Z.ai 1 5.7 7/21 4.10s
#107 Laguna Xs.2 medium Poolside 1 5.8 6/19 6.73s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#59 GLM 5V Turbo medium Z.ai 2 7.2 11/21 23.1s
#32 Gemini 3.5 Flash minimal Google 1 7.7 14/21 1.57s

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)