AI BENCHY
Advertise here

AI BENCHY श्रेणी

टूल कॉलिंग क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

15

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Grok 4.20 Beta 3.0
क्रमांक मॉडेल कंपनी टूल कॉलिंग स्कोअर स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#13 Grok 4.20 Beta medium X AI 3.0 8.5 0/1 12.4s
#20 Gemini 3.5 Flash none Google 3.0 8.1 0/1 0ms
#27 Gemma 4 31B medium Google 3.0 7.8 0/1 0ms
#42 GPT-5.2 medium OpenAI 4.7 7.5 0/1 10.3s
#45 GPT-5.4 Mini medium OpenAI 4.7 7.5 0/1 9.62s
#46 Qwen3.6 35B A3B medium Qwen 3.0 7.4 0/1 0ms
#55 GLM 5.1 medium Z.ai 3.0 7.3 0/1 0ms
#59 GLM 5V Turbo medium Z.ai 7.0 7.2 0/1 12.5s
#65 Grok 4.20 medium X AI 3.0 7.1 0/1 13.7s
#83 Step 3.5 Flash none Stepfun 3.0 6.6 0/1 0ms
#84 Grok 4.20 Multi Agent Beta medium X AI 3.0 6.6 0/1 0ms
#85 Gemma 4 31B none Google 3.0 6.5 0/1 0ms
#86 Grok 4.1 Fast medium X AI 2.8 6.5 0/1 27.7s
#89 Hy3 preview low Tencent 2.8 6.4 0/1 17.8s
#96 Ring-2.6-1T none Inclusionai 3.0 6.2 0/1 0ms

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स