टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Ring-2.6-1T 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#137	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 12.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	1/1	12.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 12.4s
#178	MiniMax M2.7 medium	Minimax	4.7	5.0	$0.163	0/1	12.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 12.0s
#139	Gemini 3 PRO Preview medium	Google	10.0	6.0	$0.385	1/1	12.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 12.0s
#51	MiniMax M3 medium	Minimax	10.0	7.6	$0.286	1/1	11.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 11.9s
#136	Step 3.5 Flash medium	Stepfun	10.0	6.0	$0.108	1/1	11.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 11.9s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 11.8s
#194	Cobuddy medium	Baidu	10.0	4.7	$0.000	1/1	11.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 11.2s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 11.1s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 10.8s
#26	Claude Sonnet 5 medium	Anthropic	10.0	8.3	$0.922	1/1	10.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 10.7s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 10.7s
#64	LongCat 2.0 medium	Meituan	10.0	7.4	$0.478	1/1	10.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 10.7s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 10.6s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	1/1	10.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 10.3s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स