Classement des échecs pour Appel d'outil invalide

Voyez quels modèles d'IA rencontrent le plus souvent Appel d'outil invalide, pour repérer les risques de fiabilité avant de choisir. Trier par: Score ↓.

Modèles affichés

Échecs totaux

100

Modèle le plus touché

Gemini 3.5 Flash 1

Catégories

Dans la catégorie Combiné91 Dans la catégorie Appel d'outils9

83/83

Rang	Modèle	Entreprise	Nombre de Appel d'outil invalide	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Tests totaux 22 Tests incorrects 2 Coût total $1.976 Temps de réponse (moy.) 15.1s
#8	Qwen3.7 Max medium	Qwen	1	9.2	$1.116	18/22	40.6s
Tests totaux 22 Tests incorrects 4 Coût total $1.116 Temps de réponse (moy.) 40.6s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
Tests totaux 22 Tests incorrects 3 Coût total $0.433 Temps de réponse (moy.) 5.55s
#16	Muse Spark 1.1 medium	Meta	1	8.6	$1.357	15/22	25.0s
Tests totaux 22 Tests incorrects 7 Coût total $1.357 Temps de réponse (moy.) 25.0s
#17	Claude Fable 5 medium	Anthropic	1	8.6	$3.478	17/22	17.2s
Tests totaux 22 Tests incorrects 5 Coût total $3.478 Temps de réponse (moy.) 17.2s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
Tests totaux 22 Tests incorrects 6 Coût total $0.922 Temps de réponse (moy.) 12.5s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	13/22	11.5s
Tests totaux 22 Tests incorrects 9 Coût total $0.647 Temps de réponse (moy.) 11.5s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
Tests totaux 22 Tests incorrects 10 Coût total $1.694 Temps de réponse (moy.) 31.5s
#28	Inkling high	Thinkingmachines	2	8.0	$1.006	15/22	64.2s
Tests totaux 22 Tests incorrects 7 Coût total $1.006 Temps de réponse (moy.) 64.2s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
Tests totaux 22 Tests incorrects 8 Coût total $0.515 Temps de réponse (moy.) 26.4s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
Tests totaux 22 Tests incorrects 7 Coût total $0.391 Temps de réponse (moy.) 16.2s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
Tests totaux 22 Tests incorrects 8 Coût total $1.055 Temps de réponse (moy.) 11.3s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Tests totaux 22 Tests incorrects 7 Coût total $0.267 Temps de réponse (moy.) 51.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	7.7	$0.042	13/22	49.7s
Tests totaux 22 Tests incorrects 9 Coût total $0.042 Temps de réponse (moy.) 49.7s
#51	Nemotron 3 Ultra medium	NVIDIA	1	7.5	$0.774	13/22	32.2s
Tests totaux 22 Tests incorrects 9 Coût total $0.774 Temps de réponse (moy.) 32.2s

1 2 3 4 5 6

→

Échecs Appel d'outil invalide

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)