टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

GPT-5.2 4.7

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

210/210

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#21	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 10.3s
#28	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 6.52s
#32	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 4.48s
#33	Kimi K3 max	Moonshot AI	3.0	8.0	$3.112	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $3.112 प्रतिसाद वेळ (सरासरी) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	3.0	7.5	$0.751	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.751 प्रतिसाद वेळ (सरासरी) 0ms
#55	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 6.69s
#56	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 9.62s
#74	GLM 5.1 medium	Z.ai	3.0	7.1	$0.535	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 0ms
#75	Grok 4.20 medium	X AI	3.0	7.1	$0.777	0/1	13.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 13.7s
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 0ms
#93	GLM 5V Turbo medium	Z.ai	7.0	6.7	$0.457	0/1	12.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 12.5s
#110	Gemma 4 31B medium	Google	3.0	6.3	$0.163	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 0ms
#115	Gemma 4 31B none	Google	3.0	6.2	$0.035	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.035 प्रतिसाद वेळ (सरासरी) 0ms
#123	Inkling low	Thinkingmachines	3.0	6.1	$0.187	0/1	2.57s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 2.57s

1 2 14

→

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स