टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

GPT-5.2 4.7

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#22	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	1/1	18.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 18.3s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	1/1	5.83s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 5.83s
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	1/1	6.57s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.928 प्रतिसाद वेळ (सरासरी) 6.57s
#26	Claude Sonnet 5 medium	Anthropic	10.0	8.3	$0.922	1/1	10.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 10.7s
#27	Muse Spark 1.1 low	Meta	9.8	8.3	$0.647	1/1	5.98s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 5.98s
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	1/1	6.20s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 6.20s
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	1/1	18.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 18.6s
#30	Muse Spark 1.1 high	Meta	9.6	8.1	$1.694	1/1	9.88s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 9.88s
#31	Gemini 3.5 Flash-Lite high	Google	10.0	8.1	$0.584	1/1	4.05s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 4.05s
#33	Step 3.7 Flash medium	Stepfun	10.0	8.0	$0.515	1/1	4.16s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 4.16s
#34	GPT-5.2 Chat none	OpenAI	10.0	8.0	$0.604	1/1	4.68s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 4.68s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	1/1	9.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.817 प्रतिसाद वेळ (सरासरी) 9.25s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	1/1	4.97s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 4.97s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	1/1	12.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 12.4s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	1/1	15.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 15.0s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स