Classement des échecs pour Appel d'outil invalide

Voyez quels modèles d'IA rencontrent le plus souvent Appel d'outil invalide, pour repérer les risques de fiabilité avant de choisir.

Modèles affichés

Échecs totaux

100

Modèle le plus touché

Ling-2.6-flash 3

Catégories

Dans la catégorie Combiné91 Dans la catégorie Appel d'outils9

83/83

Rang	Modèle	Entreprise	Nombre de Appel d'outil invalide	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#174	Ling-2.6-flash none	Inclusionai	3	4.9	$0.002	6/22	10.7s
Tests totaux 22 Tests incorrects 16 Coût total $0.002 Temps de réponse (moy.) 10.7s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
Tests totaux 22 Tests incorrects 10 Coût total $1.694 Temps de réponse (moy.) 31.5s
#28	Inkling high	Thinkingmachines	2	8.0	$1.006	15/22	64.2s
Tests totaux 22 Tests incorrects 7 Coût total $1.006 Temps de réponse (moy.) 64.2s
#87	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
Tests totaux 22 Tests incorrects 8 Coût total $0.300 Temps de réponse (moy.) 2.65s
#91	GLM 5V Turbo medium	Z.ai	2	6.7	$0.457	11/21	23.1s
Tests totaux 21 Tests incorrects 10 Coût total $0.457 Temps de réponse (moy.) 23.1s
#96	Qwen3.6 27B medium	Qwen	2	6.5	$0.779	10/22	106.3s
Tests totaux 22 Tests incorrects 12 Coût total $0.779 Temps de réponse (moy.) 106.3s
#119	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
Tests totaux 22 Tests incorrects 12 Coût total $0.187 Temps de réponse (moy.) 5.15s
#120	Qwen3.6 Flash none	Qwen	2	6.1	$0.062	7/22	3.74s
Tests totaux 22 Tests incorrects 15 Coût total $0.062 Temps de réponse (moy.) 3.74s
#146	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
Tests totaux 22 Tests incorrects 17 Coût total $0.044 Temps de réponse (moy.) 36.8s
#148	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
Tests totaux 22 Tests incorrects 15 Coût total $0.087 Temps de réponse (moy.) 10.7s
#165	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
Tests totaux 22 Tests incorrects 18 Coût total $0.021 Temps de réponse (moy.) 19.2s
#167	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Tests totaux 22 Tests incorrects 18 Coût total $0.000 Temps de réponse (moy.) 29.9s
#169	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
Tests totaux 22 Tests incorrects 16 Coût total $0.054 Temps de réponse (moy.) 18.3s
#172	GLM 4.7 Flash none	Z.ai	2	4.9	$0.016	6/22	9.15s
Tests totaux 22 Tests incorrects 16 Coût total $0.016 Temps de réponse (moy.) 9.15s
#190	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Tests totaux 22 Tests incorrects 18 Coût total $0.166 Temps de réponse (moy.) 142.6s

1 2 3 4 5 6

→

Échecs Appel d'outil invalide

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)