AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी

टूल कॉलिंग क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

15

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Ring-2.6-1T 10.0
क्रमांक मॉडेल कंपनी टूल कॉलिंग स्कोअर स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#5 Qwen3.7 Max medium Qwen 10.0 9.1 1/1 6.63s
#53 Gemini 3.1 Flash Lite high Google 10.0 7.3 1/1 6.44s
#15 GPT-5.3-Codex medium OpenAI 10.0 8.4 1/1 6.37s
#92 Laguna M.1 medium Poolside 10.0 6.4 1/1 6.31s
#28 Gemini 2.5 Flash medium Google 10.0 7.8 1/1 6.20s
#116 Hunter Alpha none OpenRouter 10.0 5.7 1/1 6.02s
#113 DeepSeek V4 Pro none DeepSeek 10.0 5.7 1/1 5.92s
#26 Qwen3.6 Plus medium Qwen 10.0 7.9 1/1 5.87s
#93 Qwen3.6 Plus Preview medium Qwen 10.0 6.3 1/1 5.87s
#61 Gemini 3.1 Flash Lite low Google 10.0 7.2 1/1 5.66s
#157 Grok 4.1 Fast none X AI 2.8 4.4 0/1 5.51s
#101 Mimo V2 Omni none Xiaomi 10.0 6.0 1/1 5.40s
#68 Claude Opus 4.8 none Anthropic 10.0 7.0 1/1 5.35s
#74 Qwen3.6 Max Preview none Qwen 10.0 6.9 1/1 5.27s
#16 Gemini 3 Flash Preview low Google 10.0 8.4 1/1 4.99s

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स