Classement Combiné x Appel d'outil invalide

Voyez quels modèles d'IA ont le plus de chances de rencontrer Appel d'outil invalide sur Combiné, pour repérer plus vite les points faibles. Trier par: Tests corrects ↑.

Modèles affichés

Échecs totaux

Modèle le plus touché

Muse Spark 1.1 2

Raisons d'échec

Appel d'outil invalide91 Mauvaise réponse68 Aucune réponse29 Erreur API26 Délai dépassé5 Mise en forme supplémentaire1 N'a pas suivi les instructions1

Catégories

Combiné91 Appel d'outils9

77/77

Rang	Modèle	Entreprise	Nombre de Appel d'outil invalide	Score de catégorie	Coût total	Tests corrects	Temps de réponse (moy.)
#27	Muse Spark 1.1 high	Meta	2	5.9	$1.694	0/2	70.3s
Tests totaux 2 Tests incorrects 2 Coût total $1.694 Temps de réponse (moy.) 70.3s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
Tests totaux 2 Tests incorrects 2 Coût total $0.300 Temps de réponse (moy.) 14.4s
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
Tests totaux 2 Tests incorrects 2 Coût total $0.746 Temps de réponse (moy.) 817.6s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.476 Temps de réponse (moy.) 183.1s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
Tests totaux 1 Tests incorrects 1 Coût total $0.457 Temps de réponse (moy.) 15.1s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.779 Temps de réponse (moy.) 584.1s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
Tests totaux 2 Tests incorrects 2 Coût total $0.646 Temps de réponse (moy.) 160.6s
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
Tests totaux 2 Tests incorrects 2 Coût total $0.621 Temps de réponse (moy.) 161.2s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
Tests totaux 2 Tests incorrects 2 Coût total $0.163 Temps de réponse (moy.) 433.1s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
Tests totaux 2 Tests incorrects 2 Coût total $0.249 Temps de réponse (moy.) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
Tests totaux 2 Tests incorrects 2 Coût total $0.017 Temps de réponse (moy.) 61.2s
#119	Qwen3.5-35B-A3B medium	Qwen	1	3.8	$0.837	0/2	512.8s
Tests totaux 2 Tests incorrects 2 Coût total $0.837 Temps de réponse (moy.) 512.8s
#123	Inkling low	Thinkingmachines	2	2.9	$0.187	0/2	22.7s
Tests totaux 2 Tests incorrects 2 Coût total $0.187 Temps de réponse (moy.) 22.7s
#124	Qwen3.6 Flash none	Qwen	2	3.8	$0.062	0/2	26.5s
Tests totaux 2 Tests incorrects 2 Coût total $0.062 Temps de réponse (moy.) 26.5s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
Tests totaux 2 Tests incorrects 2 Coût total $0.073 Temps de réponse (moy.) 243.6s

1 2 3 4 5 6

→

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé

Combiné : Appel d'outil invalide

Filtrer les modèles

Meilleurs modèles par Nombre de Appel d'outil invalide

Nombre de Appel d'outil invalide vs Score

Meilleurs modèles par Temps de réponse (moy.)

Meilleurs modèles par Coût gaspillé estimé