टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Hy3 preview 2.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

210/210

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#131	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 12.4s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 2.32s
#161	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 0ms
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/1	25.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 25.7s
#164	Inkling none	Thinkingmachines	3.0	5.2	$0.147	0/1	2.50s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.147 प्रतिसाद वेळ (सरासरी) 2.50s
#178	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 18.8s
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 0ms
#193	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/1	2.79s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.79s
#195	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.83s
#202	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 0ms
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 1.93s
#206	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 0ms

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स