AI BENCHY
Advertise here

Catégorie AI BENCHY

Classement Appel d'outils

Voyez quels modèles d'IA réussissent le mieux sur Appel d'outils, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Métrique ↑.

Modèles affichés

15

Moyenne de Score Appel d'outils

8.7

Meilleur modèle

Grok 4.1 Fast 2.8
Rang Modèle Entreprise Score Appel d'outils Score Tests corrects Temps de réponse (moy.)
#12 Gemini 3.1 Flash Lite Preview high Google 10.0 8.6 1/1 7.73s
#14 Qwen3.6 Max Preview medium Qwen 10.0 8.5 1/1 18.3s
#15 GPT-5.3-Codex medium OpenAI 10.0 8.4 1/1 6.37s
#16 Gemini 3 Flash Preview low Google 10.0 8.4 1/1 4.99s
#17 GLM 5 medium Z.ai 10.0 8.3 1/1 15.9s
#18 Qwen3.7 Plus medium Qwen 10.0 8.2 1/1 15.0s
#19 Seed-2.0-Lite medium Bytedance Seed 10.0 8.2 1/1 12.4s
#21 GPT-5.4 medium OpenAI 10.0 8.0 1/1 13.3s
#22 Step 3.7 Flash medium Stepfun 10.0 8.0 1/1 4.16s
#23 GLM 5 Turbo medium Z.ai 10.0 8.0 1/1 9.84s
#24 GPT-5.2 Chat none OpenAI 10.0 7.9 1/1 4.68s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 10.0 7.9 1/1 7.54s
#26 Qwen3.6 Plus medium Qwen 10.0 7.9 1/1 5.87s
#28 Gemini 2.5 Flash medium Google 10.0 7.8 1/1 6.20s
#29 Qwen3.5-122B-A10B medium Qwen 10.0 7.8 1/1 4.60s

Meilleurs modèles par Score Appel d'outils

Score Appel d'outils vs coût total

Meilleurs modèles par Temps de réponse (moy.)