Classement des modèles pour Appel d'outils

Catégorie AI BENCHY

Voyez quels modèles d'IA réussissent le mieux sur Appel d'outils, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Temps de réponse (moy.) ↑.

Modèles affichés

Moyenne de Score Appel d'outils

8.7

Meilleur modèle

Gemma 4 31B 3.0

Raisons d'échec

Avec la raison d'échec Erreur API6 Avec la raison d'échec N'a pas suivi les instructions6 Avec la raison d'échec Appel d'outil invalide3 Avec la raison d'échec Aucune réponse2 Avec la raison d'échec Mauvaise réponse2

Rang	Modèle	Entreprise	Score Appel d'outils	Score	Tests corrects	Temps de réponse (moy.)
#87	Qwen3 Coder Next none	Qwen	10.0	5.1	1/1	2.47s
#89	GPT-4o-mini none	OpenAI	10.0	4.9	1/1	2.51s
#92	Qwen3 Coder Next medium	Qwen	10.0	4.7	1/1	2.64s
#66	GPT-5.4 none	OpenAI	10.0	5.9	1/1	2.75s
#55	MiMo-V2-Omni none	Xiaomi	10.0	6.5	1/1	2.76s
#85	Elephant none	Openrouter	3.0	5.2	0/1	2.79s
#81	Elephant medium	Openrouter	3.0	5.2	0/1	2.83s
#49	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.8	1/1	3.33s
#21	Gemini 3 Flash Preview none	Google	10.0	8.1	1/1	3.35s
#29	Gemini 3.1 Flash Lite Preview none	Google	10.0	7.9	1/1	3.39s
#96	GPT-5.4 Nano none	OpenAI	10.0	4.5	1/1	3.40s
#73	Mistral Small 4 medium	Mistral	10.0	5.7	1/1	3.50s
#67	Qwen3.5-27B none	Qwen	10.0	5.9	1/1	3.54s
#59	Qwen3.5-Flash none	Qwen	10.0	6.2	1/1	3.67s
#17	Gemini 3.1 Flash Lite Preview medium	Google	10.0	8.2	1/1	3.80s

←

1 2 3 4 5 6 7

→

Classement Appel d'outils

Meilleurs modèles par Score Appel d'outils

Score Appel d'outils vs coût total

Meilleurs modèles par Temps de réponse (moy.)