Classement des échecs pour Appel d'outil invalide

Voyez quels modèles d'IA rencontrent le plus souvent Appel d'outil invalide, pour repérer les risques de fiabilité avant de choisir. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

Échecs totaux

100

Modèle le plus touché

Laguna Xs.2 1

Catégories

Dans la catégorie Combiné91 Dans la catégorie Appel d'outils9

83/83

Rang	Modèle	Entreprise	Nombre de Appel d'outil invalide	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
Tests totaux 22 Tests incorrects 9 Coût total $0.115 Temps de réponse (moy.) 4.61s
#117	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
Tests totaux 22 Tests incorrects 12 Coût total $0.249 Temps de réponse (moy.) 5.04s
#123	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
Tests totaux 22 Tests incorrects 12 Coût total $0.187 Temps de réponse (moy.) 5.15s
#55	GPT-5.6 Terra low	OpenAI	1	7.5	$0.519	13/22	5.31s
Tests totaux 22 Tests incorrects 9 Coût total $0.519 Temps de réponse (moy.) 5.31s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
Tests totaux 22 Tests incorrects 3 Coût total $0.433 Temps de réponse (moy.) 5.55s
#118	Gemini 2.5 Flash none	Google	1	6.2	$0.017	9/22	6.20s
Tests totaux 22 Tests incorrects 13 Coût total $0.017 Temps de réponse (moy.) 6.20s
#151	GLM 5.1 none	Z.ai	1	5.5	$0.164	7/22	6.70s
Tests totaux 22 Tests incorrects 15 Coût total $0.164 Temps de réponse (moy.) 6.70s
#198	Laguna Xs.2 medium	Poolside	1	4.1	$0.015	6/19	6.73s
Tests totaux 19 Tests incorrects 13 Coût total $0.015 Temps de réponse (moy.) 6.73s
#156	Gemma 4 26B A4B none	Google	1	5.5	$0.015	8/22	7.64s
Tests totaux 22 Tests incorrects 14 Coût total $0.015 Temps de réponse (moy.) 7.64s
#162	Ling-2.6-1T none	Inclusionai	1	5.3	$0.016	4/22	8.58s
Tests totaux 22 Tests incorrects 18 Coût total $0.016 Temps de réponse (moy.) 8.58s
#176	GLM 4.7 Flash none	Z.ai	2	4.9	$0.016	6/22	9.15s
Tests totaux 22 Tests incorrects 16 Coût total $0.016 Temps de réponse (moy.) 9.15s
#96	GLM 5.2 none	Z.ai	1	6.6	$0.151	12/22	9.34s
Tests totaux 22 Tests incorrects 10 Coût total $0.151 Temps de réponse (moy.) 9.34s
#152	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
Tests totaux 22 Tests incorrects 15 Coût total $0.087 Temps de réponse (moy.) 10.7s
#178	Ling-2.6-flash none	Inclusionai	3	4.9	$0.002	6/22	10.7s
Tests totaux 22 Tests incorrects 16 Coût total $0.002 Temps de réponse (moy.) 10.7s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
Tests totaux 22 Tests incorrects 8 Coût total $1.055 Temps de réponse (moy.) 11.3s

←

1 2 3 4 5 6

→

Échecs Appel d'outil invalide

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)