AI BENCHY
Your ad here

Échecs AI BENCHY

Échecs Appel d'outil invalide

Voyez quels modèles d'IA rencontrent le plus souvent Appel d'outil invalide, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

12

Échecs totaux

13

Modèle le plus touché

MiniMax M2.5 1
Rang Modèle Entreprise Nombre de Appel d'outil invalide Score Tests corrects Temps de réponse (moy.)
#71 MiniMax M2.5 medium Minimax 1 5.7 5/18 39.6s
#93 GLM 4.7 Flash medium Z.ai 1 4.6 4/18 32.3s
#80 MiniMax M2.7 medium Minimax 1 5.3 4/18 31.1s
#31 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s
#64 DeepSeek V3.2 none DeepSeek 1 6.1 7/18 12.1s
#75 GLM 5.1 none Z.ai 1 5.6 5/18 4.33s
#74 GLM 4.7 Flash none Z.ai 1 5.6 5/18 3.35s
#90 Qwen3.5-9B none Qwen 1 4.8 4/18 1.47s
#81 Elephant medium Openrouter 1 5.2 5/18 1.27s
#85 Elephant none Openrouter 1 5.2 5/18 1.23s
#79 Grok 4.20 Beta none X AI 1 5.3 4/18 1.19s
#82 Grok 4.20 none X AI 1 5.2 5/18 1.11s

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)