Classement Combiné x Appel d'outil invalide

Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

Laguna M.1 1

Raisons d'échec

Appel d'outil invalide91 Mauvaise réponse68 Aucune réponse29 Erreur API26 Délai dépassé5 Mise en forme supplémentaire1 N'a pas suivi les instructions1

Catégories

Combiné91 Appel d'outils9

77/77

Rang	Modèle	Entreprise	Nombre de Appel d'outil invalide	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#192	Laguna M.1 none	Poolside	1	1.5	$0.009	0/1	4.32s
Tests totaux 1 Tests incorrects 1 Coût total $0.009 Temps de réponse (moy.) 4.32s
#197	Grok 4.20 none	X AI	1	1.5	$0.057	0/1	6.04s
Tests totaux 1 Tests incorrects 1 Coût total $0.057 Temps de réponse (moy.) 6.04s
#191	Grok 4.20 Beta none	X AI	1	1.5	$0.087	0/1	6.48s
Tests totaux 1 Tests incorrects 1 Coût total $0.087 Temps de réponse (moy.) 6.48s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
Tests totaux 2 Tests incorrects 2 Coût total $0.142 Temps de réponse (moy.) 6.68s
#132	GPT-5.6 Terra none	OpenAI	1	2.9	$0.349	0/2	7.02s
Tests totaux 2 Tests incorrects 2 Coût total $0.349 Temps de réponse (moy.) 7.02s
#78	Mercury 2 medium	Inception	1	6.7	$0.093	1/2	7.84s
Tests totaux 2 Tests incorrects 1 Coût total $0.093 Temps de réponse (moy.) 7.84s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
Tests totaux 2 Tests incorrects 2 Coût total $0.007 Temps de réponse (moy.) 9.28s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
Tests totaux 2 Tests incorrects 1 Coût total $0.519 Temps de réponse (moy.) 9.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
Tests totaux 2 Tests incorrects 2 Coût total $0.008 Temps de réponse (moy.) 10.4s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
Tests totaux 2 Tests incorrects 2 Coût total $0.249 Temps de réponse (moy.) 13.7s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
Tests totaux 2 Tests incorrects 1 Coût total $1.055 Temps de réponse (moy.) 13.7s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
Tests totaux 2 Tests incorrects 2 Coût total $0.300 Temps de réponse (moy.) 14.4s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
Tests totaux 1 Tests incorrects 1 Coût total $0.457 Temps de réponse (moy.) 15.1s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.2	$0.115	1/2	16.6s
Tests totaux 2 Tests incorrects 1 Coût total $0.115 Temps de réponse (moy.) 16.6s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.2	$0.117	1/2	18.5s
Tests totaux 2 Tests incorrects 1 Coût total $0.117 Temps de réponse (moy.) 18.5s

1 2 3 4 5 6

→

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Combiné : Appel d'outil invalide

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé