Classement des modèles pour Appel d'outils

Voyez quels modèles d'IA réussissent le mieux sur Appel d'outils, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Tests corrects ↑.

Modèles affichés

Moyenne de Score Appel d'outils

8.8

Meilleur modèle

GPT-5.2 4.7

Raisons d'échec

Avec la raison d'échec Erreur API17 Avec la raison d'échec Appel d'outil invalide9 Avec la raison d'échec N'a pas suivi les instructions8 Avec la raison d'échec Mauvaise réponse3 Avec la raison d'échec Aucune réponse2

216/216

Rang	Modèle	Entreprise	Score Appel d'outils	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#204	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
Tests totaux 1 Tests incorrects 1 Coût total $0.015 Temps de réponse (moy.) 3.39s
#208	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.547 Temps de réponse (moy.) 0ms
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
Tests totaux 1 Tests incorrects 1 Coût total $0.008 Temps de réponse (moy.) 5.51s
#211	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Tests totaux 1 Tests incorrects 1 Coût total $0.004 Temps de réponse (moy.) 1.93s
#212	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.010 Temps de réponse (moy.) 0ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 0ms
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.000 Temps de réponse (moy.) 0ms
#215	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.020 Temps de réponse (moy.) 0ms
#216	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
Tests totaux 1 Tests incorrects 1 Coût total $0.001 Temps de réponse (moy.) 0ms
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
Tests totaux 1 Tests incorrects 0 Coût total $0.831 Temps de réponse (moy.) 8.55s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
Tests totaux 1 Tests incorrects 0 Coût total $1.785 Temps de réponse (moy.) 9.76s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
Tests totaux 1 Tests incorrects 0 Coût total $0.742 Temps de réponse (moy.) 12.6s
#4	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
Tests totaux 1 Tests incorrects 0 Coût total $1.976 Temps de réponse (moy.) 4.96s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
Tests totaux 1 Tests incorrects 0 Coût total $0.971 Temps de réponse (moy.) 7.56s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
Tests totaux 1 Tests incorrects 0 Coût total $0.517 Temps de réponse (moy.) 4.78s

Classement Appel d'outils

Filtrer les modèles

Meilleurs modèles par Score Appel d'outils

Score Appel d'outils vs coût total

Meilleurs modèles par Temps de réponse (moy.)