Classement Combiné x Appel d'outil invalide

Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↓.

Modèles affichés

Échecs totaux

Modèle le plus touché

Qwen3.6 35B A3B 1

Raisons d'échec

Appel d'outil invalide91 Mauvaise réponse68 Aucune réponse29 Erreur API26 Délai dépassé5 Mise en forme supplémentaire1 N'a pas suivi les instructions1

Catégories

Combiné91 Appel d'outils9

77/77

Rang	Modèle	Entreprise	Nombre de Appel d'outil invalide	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
Tests totaux 2 Tests incorrects 2 Coût total $0.746 Temps de réponse (moy.) 817.6s
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/2	802.8s
Tests totaux 2 Tests incorrects 2 Coût total $0.166 Temps de réponse (moy.) 802.8s
#58	Qwen3.5-27B medium	Qwen	1	7.3	$1.627	1/2	595.2s
Tests totaux 2 Tests incorrects 1 Coût total $1.627 Temps de réponse (moy.) 595.2s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.779 Temps de réponse (moy.) 584.1s
#137	North Mini Code medium	Cohere	1	2.9	$0.000	0/2	554.9s
Tests totaux 2 Tests incorrects 2 Coût total $0.000 Temps de réponse (moy.) 554.9s
#119	Qwen3.5-35B-A3B medium	Qwen	1	3.8	$0.837	0/2	512.8s
Tests totaux 2 Tests incorrects 2 Coût total $0.837 Temps de réponse (moy.) 512.8s
#95	Gemma 4 26B A4B medium	Google	1	6.3	$0.089	1/2	492.9s
Tests totaux 2 Tests incorrects 1 Coût total $0.089 Temps de réponse (moy.) 492.9s
#68	Kimi K2.6 medium	Moonshot AI	1	6.9	$1.036	1/2	458.6s
Tests totaux 2 Tests incorrects 1 Coût total $1.036 Temps de réponse (moy.) 458.6s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.163 Temps de réponse (moy.) 433.1s
#72	Qwen3.5-122B-A10B medium	Qwen	1	6.4	$1.046	1/2	313.5s
Tests totaux 2 Tests incorrects 1 Coût total $1.046 Temps de réponse (moy.) 313.5s
#85	Qwen3.6 Flash medium	Qwen	1	6.5	$0.738	1/2	299.2s
Tests totaux 2 Tests incorrects 1 Coût total $0.738 Temps de réponse (moy.) 299.2s
#8	Qwen3.7 Max medium	Qwen	1	8.7	$1.116	1/2	287.8s
Tests totaux 2 Tests incorrects 1 Coût total $1.116 Temps de réponse (moy.) 287.8s
#114	Qwen3.5-Flash medium	Qwen	1	6.4	$0.139	1/2	266.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.139 Temps de réponse (moy.) 266.6s
#108	Ring-2.6-1T medium	Inclusionai	1	7.3	$0.103	1/2	257.3s
Tests totaux 2 Tests incorrects 1 Coût total $0.103 Temps de réponse (moy.) 257.3s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
Tests totaux 2 Tests incorrects 2 Coût total $0.073 Temps de réponse (moy.) 243.6s

1 2 3 4 5 6

→

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Combiné : Appel d'outil invalide

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé