टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

GPT-5.2 4.7

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

210/210

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#131	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 12.4s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 2.32s
#153	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 17.8s
#161	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 0ms
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/1	25.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 25.7s
#164	Inkling none	Thinkingmachines	3.0	5.2	$0.147	0/1	2.50s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.147 प्रतिसाद वेळ (सरासरी) 2.50s
#172	MiniMax M2.7 medium	Minimax	4.7	5.0	$0.163	0/1	12.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 12.0s
#176	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.016	0/1	7.05s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 7.05s
#177	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 16.0s
#178	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 18.8s
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 0ms
#185	Grok 4.1 Fast medium	X AI	2.8	4.7	$0.069	0/1	27.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 27.7s
#193	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/1	2.79s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.79s
#195	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.83s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स