टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Hy3 preview 2.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

210/210

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#153	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 17.8s
#176	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.016	0/1	7.05s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 7.05s
#185	Grok 4.1 Fast medium	X AI	2.8	4.7	$0.069	0/1	27.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 27.7s
#203	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 5.51s
#28	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 6.52s
#32	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 4.48s
#33	Kimi K3 max	Moonshot AI	3.0	8.0	$3.112	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $3.112 प्रतिसाद वेळ (सरासरी) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	3.0	7.5	$0.751	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.751 प्रतिसाद वेळ (सरासरी) 0ms
#74	GLM 5.1 medium	Z.ai	3.0	7.1	$0.535	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 0ms
#75	Grok 4.20 medium	X AI	3.0	7.1	$0.777	0/1	13.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 13.7s
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 0ms
#110	Gemma 4 31B medium	Google	3.0	6.3	$0.163	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 0ms
#115	Gemma 4 31B none	Google	3.0	6.2	$0.035	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.035 प्रतिसाद वेळ (सरासरी) 0ms
#123	Inkling low	Thinkingmachines	3.0	6.1	$0.187	0/1	2.57s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 2.57s

1 2 14

→

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स