AI BENCHY
Your ad here

Échecs par catégorie AI BENCHY

Combiné : Appel d'outil invalide

Combiné
Appel d'outil invalide

Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

10

Échecs totaux

10

Modèle le plus touché

GLM 4.7 Flash 1
Rang Modèle Entreprise Nombre de Appel d'outil invalide Score de catégorie Tests corrects Temps de réponse (moy.)
#74 GLM 4.7 Flash none Z.ai 1 3.0 0/1 3.22s
#90 Qwen3.5-9B none Qwen 1 3.0 0/1 5.91s
#82 Grok 4.20 none X AI 1 3.0 0/1 6.04s
#79 Grok 4.20 Beta none X AI 1 3.0 0/1 6.48s
#31 GLM 5V Turbo medium Z.ai 1 6.9 0/1 15.1s
#75 GLM 5.1 none Z.ai 1 2.8 0/1 32.6s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 41.0s
#71 MiniMax M2.5 medium Minimax 1 4.5 0/1 60.4s
#93 GLM 4.7 Flash medium Z.ai 1 2.8 0/1 65.6s
#64 DeepSeek V3.2 none DeepSeek 1 6.5 0/1 115.9s

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé