AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी

टूल कॉलिंग क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

8

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Seed-2.0-Mini 10.0
क्रमांक मॉडेल कंपनी टूल कॉलिंग स्कोअर स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#90 Qwen3.5-9B none Qwen 10.0 4.8 1/1 1.27s
#91 Mercury 2 none Inception 10.0 4.8 1/1 1.27s
#14 Gemma 4 31B medium Google 3.0 8.3 0/1 0ms
#33 GLM 5.1 medium Z.ai 3.0 7.8 0/1 0ms
#48 Gemma 4 31B none Google 3.0 6.9 0/1 0ms
#56 Grok 4.20 Multi Agent Beta medium X AI 3.0 6.4 0/1 0ms
#84 gpt-oss-120b none OpenAI 3.0 5.2 0/1 0ms
#98 LFM2-24B-A2B none Liquid 3.0 4.1 0/1 0ms

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स