AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Catégorie AI BENCHY

Classement Appel d'outils

Voyez quels modèles d'IA réussissent le mieux sur Appel d'outils, lesquels restent fiables et où les écarts sont les plus marqués. Trier par: Tests corrects ↓.

Modèles affichés

15

Moyenne de Score Appel d'outils

8.7

Rang Modèle Entreprise Score Appel d'outils Score Tests corrects Temps de réponse (moy.)
#124 Kimi K2.6 none Moonshot AI 10.0 5.5 1/1 4.46s
#125 GPT-5.4 none OpenAI 10.0 5.5 1/1 2.75s
#127 Grok 4.20 none X AI 10.0 5.4 1/1 4.63s
#128 Qwen3.6 Flash none Qwen 10.0 5.4 1/1 2.49s
#129 MiniMax M2.5 medium Minimax 10.0 5.3 1/1 15.4s
#131 Qwen3.5-122B-A10B none Qwen 10.0 5.3 1/1 2.04s
#132 Mistral Small 4 medium Mistral 10.0 5.3 1/1 3.50s
#133 DeepSeek V3.2 none DeepSeek 10.0 5.2 1/1 11.8s
#134 GLM 5 Turbo none Z.ai 10.0 5.2 1/1 8.21s
#135 Kimi K2.5 none Moonshot AI 10.0 5.2 1/1 14.0s
#139 DeepSeek V4 Flash none DeepSeek 10.0 5.0 1/1 77.9s
#140 Qwen3 Coder Next none Qwen 10.0 4.9 1/1 2.47s
#142 Mistral Small 4 none Mistral 10.0 4.9 1/1 1.40s
#143 MiMo-V2.5 none Xiaomi 10.0 4.9 1/1 2.43s
#145 Laguna M.1 none Poolside 10.0 4.8 1/1 7.54s

Meilleurs modèles par Score Appel d'outils

Score Appel d'outils vs coût total

Meilleurs modèles par Temps de réponse (moy.)