Classement des modèles pour Appel d'outils

Voyez quels modèles d'IA réussissent le mieux sur Appel d'outils, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.

Modèles affichés

Moyenne de Score Appel d'outils

8.7

Meilleur modèle

Hy3 preview 2.8

Raisons d'échec

Avec la raison d'échec Erreur API17 Avec la raison d'échec Appel d'outil invalide9 Avec la raison d'échec N'a pas suivi les instructions8 Avec la raison d'échec Mauvaise réponse3 Avec la raison d'échec Aucune réponse2

210/210

Rang	Modèle	Entreprise	Score Appel d'outils	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#153	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
Tests totaux 1 Tests incorrects 1 Coût total $0.015 Temps de réponse (moy.) 17.8s
#176	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.016	0/1	7.05s
Tests totaux 1 Tests incorrects 1 Coût total $0.016 Temps de réponse (moy.) 7.05s
#185	Grok 4.1 Fast medium	X AI	2.8	4.7	$0.069	0/1	27.7s
Tests totaux 1 Tests incorrects 1 Coût total $0.069 Temps de réponse (moy.) 27.7s
#203	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
Tests totaux 1 Tests incorrects 1 Coût total $0.008 Temps de réponse (moy.) 5.51s
#28	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
Tests totaux 1 Tests incorrects 1 Coût total $1.006 Temps de réponse (moy.) 6.52s
#32	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
Tests totaux 1 Tests incorrects 1 Coût total $0.391 Temps de réponse (moy.) 4.48s
#33	Kimi K3 max	Moonshot AI	3.0	8.0	$3.112	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $3.112 Temps de réponse (moy.) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	3.0	7.5	$0.751	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.751 Temps de réponse (moy.) 0ms
#74	GLM 5.1 medium	Z.ai	3.0	7.1	$0.535	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.535 Temps de réponse (moy.) 0ms
#75	Grok 4.20 medium	X AI	3.0	7.1	$0.777	0/1	13.7s
Tests totaux 1 Tests incorrects 1 Coût total $0.777 Temps de réponse (moy.) 13.7s
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $1.079 Temps de réponse (moy.) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.746 Temps de réponse (moy.) 0ms
#110	Gemma 4 31B medium	Google	3.0	6.3	$0.163	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.163 Temps de réponse (moy.) 0ms
#115	Gemma 4 31B none	Google	3.0	6.2	$0.035	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.035 Temps de réponse (moy.) 0ms
#123	Inkling low	Thinkingmachines	3.0	6.1	$0.187	0/1	2.57s
Tests totaux 1 Tests incorrects 1 Coût total $0.187 Temps de réponse (moy.) 2.57s

Classement Appel d'outils

Filtrer les modèles

Meilleurs modèles par Score Appel d'outils

Score Appel d'outils vs coût total

Meilleurs modèles par Temps de réponse (moy.)