AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी

टूल कॉलिंग क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

15

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0
क्रमांक मॉडेल कंपनी टूल कॉलिंग स्कोअर स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#71 Step 3.7 Flash high Stepfun 10.0 7.0 1/1 2.79s
#72 DeepSeek V3.2 medium DeepSeek 10.0 7.0 1/1 34.8s
#73 Seed-2.0-Mini medium Bytedance Seed 10.0 6.9 1/1 88.7s
#74 Qwen3.6 Max Preview none Qwen 10.0 6.9 1/1 5.27s
#75 Ring-2.6-1T medium Inclusionai 10.0 6.9 1/1 104.4s
#76 Kimi K2.5 medium Moonshot AI 10.0 6.8 1/1 31.7s
#77 Claude Sonnet 4.6 none Anthropic 10.0 6.8 1/1 4.11s
#78 Qwen3.6 27B medium Qwen 10.0 6.8 1/1 16.9s
#79 Hunter Alpha medium OpenRouter 10.0 6.7 1/1 17.3s
#80 Mimo V2 Omni medium Xiaomi 10.0 6.7 1/1 14.0s
#81 Mercury 2 medium Inception 10.0 6.6 1/1 1.89s
#82 Hy3 preview high Tencent 10.0 6.6 1/1 78.8s
#87 Gemini 3.1 Flash Lite minimal Google 10.0 6.4 1/1 3.51s
#88 Qwen3.7 Plus none Qwen 10.0 6.4 1/1 3.54s
#90 Gemini 3.1 Flash Lite none Google 10.0 6.4 1/1 2.97s

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स