Classement des modèles pour Appel d'outils

Voyez quels modèles d'IA réussissent le mieux sur Appel d'outils, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.

Modèles affichés

Moyenne de Score Appel d'outils

8.7

Meilleur modèle

Hy3 preview 2.8

Raisons d'échec

Avec la raison d'échec Erreur API17 Avec la raison d'échec Appel d'outil invalide9 Avec la raison d'échec N'a pas suivi les instructions8 Avec la raison d'échec Mauvaise réponse3 Avec la raison d'échec Aucune réponse2

210/210

Rang	Modèle	Entreprise	Score Appel d'outils	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#131	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
Tests totaux 1 Tests incorrects 1 Coût total $0.750 Temps de réponse (moy.) 12.4s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
Tests totaux 1 Tests incorrects 1 Coût total $0.095 Temps de réponse (moy.) 2.32s
#161	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.061 Temps de réponse (moy.) 0ms
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/1	25.7s
Tests totaux 1 Tests incorrects 1 Coût total $0.016 Temps de réponse (moy.) 25.7s
#164	Inkling none	Thinkingmachines	3.0	5.2	$0.147	0/1	2.50s
Tests totaux 1 Tests incorrects 1 Coût total $0.147 Temps de réponse (moy.) 2.50s
#178	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
Tests totaux 1 Tests incorrects 1 Coût total $0.002 Temps de réponse (moy.) 18.8s
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.026 Temps de réponse (moy.) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $5.599 Temps de réponse (moy.) 0ms
#193	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/1	2.79s
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 2.79s
#195	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 2.83s
#202	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.547 Temps de réponse (moy.) 0ms
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Tests totaux 1 Tests incorrects 1 Coût total $0.004 Temps de réponse (moy.) 1.93s
#206	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.010 Temps de réponse (moy.) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 0ms

Classement Appel d'outils

Filtrer les modèles

Meilleurs modèles par Score Appel d'outils

Score Appel d'outils vs coût total

Meilleurs modèles par Temps de réponse (moy.)