Classement des modèles pour Appel d'outils

Voyez quels modèles d'IA réussissent le mieux sur Appel d'outils, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Tests corrects ↓.

Modèles affichés

Moyenne de Score Appel d'outils

8.7

Meilleur modèle

Gemini 3 Flash Preview 10.0

Raisons d'échec

Avec la raison d'échec Erreur API17 Avec la raison d'échec Appel d'outil invalide9 Avec la raison d'échec N'a pas suivi les instructions8 Avec la raison d'échec Mauvaise réponse3 Avec la raison d'échec Aucune réponse2

210/210

Rang	Modèle	Entreprise	Score Appel d'outils	Score	Coût total	Tests corrects	Temps de réponse (moy.)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
Tests totaux 1 Tests incorrects 0 Coût total $0.742 Temps de réponse (moy.) 12.6s
#2	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
Tests totaux 1 Tests incorrects 0 Coût total $1.976 Temps de réponse (moy.) 4.96s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
Tests totaux 1 Tests incorrects 0 Coût total $0.971 Temps de réponse (moy.) 7.56s
#4	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	1/1	6.30s
Tests totaux 1 Tests incorrects 0 Coût total $1.316 Temps de réponse (moy.) 6.30s
#5	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	1/1	7.08s
Tests totaux 1 Tests incorrects 0 Coût total $1.234 Temps de réponse (moy.) 7.08s
#6	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	1/1	4.96s
Tests totaux 1 Tests incorrects 0 Coût total $1.253 Temps de réponse (moy.) 4.96s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	1/1	23.1s
Tests totaux 1 Tests incorrects 0 Coût total $1.361 Temps de réponse (moy.) 23.1s
#8	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	1/1	6.63s
Tests totaux 1 Tests incorrects 0 Coût total $1.116 Temps de réponse (moy.) 6.63s
#9	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
Tests totaux 1 Tests incorrects 0 Coût total $0.642 Temps de réponse (moy.) 3.81s
#10	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
Tests totaux 1 Tests incorrects 0 Coût total $4.137 Temps de réponse (moy.) 10.6s
#11	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	1/1	3.27s
Tests totaux 1 Tests incorrects 0 Coût total $0.433 Temps de réponse (moy.) 3.27s
#12	Grok 4.5 high	X AI	10.0	8.9	$1.707	1/1	5.71s
Tests totaux 1 Tests incorrects 0 Coût total $1.707 Temps de réponse (moy.) 5.71s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	1/1	6.37s
Tests totaux 1 Tests incorrects 0 Coût total $0.920 Temps de réponse (moy.) 6.37s
#14	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	1/1	8.96s
Tests totaux 1 Tests incorrects 0 Coût total $1.931 Temps de réponse (moy.) 8.96s
#15	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	1/1	4.17s
Tests totaux 1 Tests incorrects 0 Coût total $1.477 Temps de réponse (moy.) 4.17s

Classement Appel d'outils

Filtrer les modèles

Meilleurs modèles par Score Appel d'outils

Score Appel d'outils vs coût total

Meilleurs modèles par Temps de réponse (moy.)