टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Hy3 preview 2.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#33	Step 3.7 Flash medium	Stepfun	10.0	8.0	$0.515	1/1	4.16s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 4.16s
#34	GPT-5.2 Chat none	OpenAI	10.0	8.0	$0.604	1/1	4.68s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 4.68s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	1/1	9.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.817 प्रतिसाद वेळ (सरासरी) 9.25s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	1/1	4.97s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 4.97s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	1/1	12.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 12.4s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	1/1	15.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 15.0s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	1/1	5.87s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.405 प्रतिसाद वेळ (सरासरी) 5.87s
#42	GLM 5.2 medium	Z.ai	10.0	7.8	$0.187	1/1	20.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 20.4s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	1/1	5.09s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 5.09s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	1/1	7.48s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 7.48s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	1/1	6.85s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 6.85s
#46	GLM 5 medium	Z.ai	10.0	7.7	$0.307	1/1	15.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 15.9s
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	1/1	9.73s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 9.73s
#48	GPT-5.6 Luna high	OpenAI	10.0	7.7	$1.017	1/1	4.98s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 4.98s
#49	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.041	1/1	74.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 74.7s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स