Classement des échecs pour Appel d'outil invalide

Voyez quels modèles d'IA rencontrent le plus souvent Appel d'outil invalide, pour repérer les risques de fiabilité avant de choisir.

Modèles affichés

Échecs totaux

100

Modèle le plus touché

Ling-2.6-flash 3

Catégories

Dans la catégorie Combiné91 Dans la catégorie Appel d'outils9

83/83

Rang	Modèle	Entreprise	Nombre de Appel d'outil invalide	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
Tests totaux 22 Tests incorrects 20 Coût total $0.007 Temps de réponse (moy.) 1.45s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Tests totaux 22 Tests incorrects 2 Coût total $1.976 Temps de réponse (moy.) 15.1s
#8	Qwen3.7 Max medium	Qwen	1	9.2	$1.116	18/22	40.6s
Tests totaux 22 Tests incorrects 4 Coût total $1.116 Temps de réponse (moy.) 40.6s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
Tests totaux 22 Tests incorrects 3 Coût total $0.433 Temps de réponse (moy.) 5.55s
#16	Muse Spark 1.1 medium	Meta	1	8.6	$1.357	15/22	25.0s
Tests totaux 22 Tests incorrects 7 Coût total $1.357 Temps de réponse (moy.) 25.0s
#17	Claude Fable 5 medium	Anthropic	1	8.6	$3.478	17/22	17.2s
Tests totaux 22 Tests incorrects 5 Coût total $3.478 Temps de réponse (moy.) 17.2s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
Tests totaux 22 Tests incorrects 6 Coût total $0.922 Temps de réponse (moy.) 12.5s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	13/22	11.5s
Tests totaux 22 Tests incorrects 9 Coût total $0.647 Temps de réponse (moy.) 11.5s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
Tests totaux 22 Tests incorrects 8 Coût total $0.515 Temps de réponse (moy.) 26.4s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
Tests totaux 22 Tests incorrects 7 Coût total $0.391 Temps de réponse (moy.) 16.2s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
Tests totaux 22 Tests incorrects 8 Coût total $1.055 Temps de réponse (moy.) 11.3s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Tests totaux 22 Tests incorrects 7 Coût total $0.267 Temps de réponse (moy.) 51.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	7.7	$0.042	13/22	49.7s
Tests totaux 22 Tests incorrects 9 Coût total $0.042 Temps de réponse (moy.) 49.7s
#51	Nemotron 3 Ultra medium	NVIDIA	1	7.5	$0.774	13/22	32.2s
Tests totaux 22 Tests incorrects 9 Coût total $0.774 Temps de réponse (moy.) 32.2s
#55	GPT-5.6 Terra low	OpenAI	1	7.5	$0.519	13/22	5.31s
Tests totaux 22 Tests incorrects 9 Coût total $0.519 Temps de réponse (moy.) 5.31s

←

1 2 3 4 5 6

→

Échecs Appel d'outil invalide

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)