AI BENCHY
Your ad here

Échecs par catégorie AI BENCHY

Combiné : Appel d'outil invalide

Combiné
Appel d'outil invalide

Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles. Trier par: Tests corrects ↓.

Modèles affichés

10

Échecs totaux

10

Modèle le plus touché

GLM 5V Turbo 1
Rang Modèle Entreprise Nombre de Appel d'outil invalide Score de catégorie Tests corrects Temps de réponse (moy.)
#31 GLM 5V Turbo medium Z.ai 1 6.9 0/1 15.1s
#64 DeepSeek V3.2 none DeepSeek 1 6.5 0/1 115.9s
#71 MiniMax M2.5 medium Minimax 1 4.5 0/1 60.4s
#74 GLM 4.7 Flash none Z.ai 1 3.0 0/1 3.22s
#75 GLM 5.1 none Z.ai 1 2.8 0/1 32.6s
#79 Grok 4.20 Beta none X AI 1 3.0 0/1 6.48s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 41.0s
#82 Grok 4.20 none X AI 1 3.0 0/1 6.04s
#90 Qwen3.5-9B none Qwen 1 3.0 0/1 5.91s
#93 GLM 4.7 Flash medium Z.ai 1 2.8 0/1 65.6s

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé