AI BENCHY
Your ad here

Échecs par catégorie AI BENCHY

Combiné : Appel d'outil invalide

Combiné
Appel d'outil invalide

Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

10

Échecs totaux

10

Modèle le plus touché

DeepSeek V3.2 1
Rang Modèle Entreprise Nombre de Appel d'outil invalide Score de catégorie Tests corrects Temps de réponse (moy.)
#64 DeepSeek V3.2 none DeepSeek 1 6.5 0/1 115.9s
#93 GLM 4.7 Flash medium Z.ai 1 2.8 0/1 65.6s
#71 MiniMax M2.5 medium Minimax 1 4.5 0/1 60.4s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 41.0s
#75 GLM 5.1 none Z.ai 1 2.8 0/1 32.6s
#31 GLM 5V Turbo medium Z.ai 1 6.9 0/1 15.1s
#79 Grok 4.20 Beta none X AI 1 3.0 0/1 6.48s
#82 Grok 4.20 none X AI 1 3.0 0/1 6.04s
#90 Qwen3.5-9B none Qwen 1 3.0 0/1 5.91s
#74 GLM 4.7 Flash none Z.ai 1 3.0 0/1 3.22s

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé