टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Kimi K3 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	1/1	6.67s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 6.67s
#59	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 6.69s
#158	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 6.74s
#118	Claude Sonnet 5 none	Anthropic	10.0	6.3	$0.548	1/1	6.80s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 6.80s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	1/1	6.85s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 6.85s
#127	gpt-oss-120b medium	OpenAI	9.8	6.1	$0.019	1/1	6.91s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 6.91s
#19	Muse Spark 1.1 medium	Meta	9.8	8.6	$1.357	1/1	6.99s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 6.99s
#182	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.016	0/1	7.05s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 7.05s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	1/1	7.08s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 7.08s
#107	MiMo-V2.5 medium	Xiaomi	10.0	6.5	$0.082	1/1	7.29s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.082 प्रतिसाद वेळ (सरासरी) 7.29s
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 7.40s
#62	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	1/1	7.45s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 7.45s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	1/1	7.48s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 7.48s
#198	Laguna M.1 none	Poolside	10.0	4.4	$0.009	1/1	7.54s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 7.54s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	1/1	7.54s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 7.54s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स