AI BENCHY
Advertise here

AI BENCHY श्रेणी

टूल कॉलिंग क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

15

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0
क्रमांक मॉडेल कंपनी टूल कॉलिंग स्कोअर स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#45 GPT-5.4 Mini medium OpenAI 4.7 7.5 0/1 9.62s
#46 Qwen3.6 35B A3B medium Qwen 3.0 7.4 0/1 0ms
#55 GLM 5.1 medium Z.ai 3.0 7.3 0/1 0ms
#59 GLM 5V Turbo medium Z.ai 7.0 7.2 0/1 12.5s
#65 Grok 4.20 medium X AI 3.0 7.1 0/1 13.7s
#83 Step 3.5 Flash none Stepfun 3.0 6.6 0/1 0ms
#84 Grok 4.20 Multi Agent Beta medium X AI 3.0 6.6 0/1 0ms
#85 Gemma 4 31B none Google 3.0 6.5 0/1 0ms
#86 Grok 4.1 Fast medium X AI 2.8 6.5 0/1 27.7s
#89 Hy3 preview low Tencent 2.8 6.4 0/1 17.8s
#96 Ring-2.6-1T none Inclusionai 3.0 6.2 0/1 0ms
#100 Grok Build 0.1 none X AI 3.0 6.0 0/1 0ms
#107 Laguna Xs.2 medium Poolside 4.7 5.8 0/1 3.39s
#122 GLM 4.7 Flash none Z.ai 2.8 5.5 0/1 7.05s
#126 gpt-oss-120b none OpenAI 3.0 5.4 0/1 0ms

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स