टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Ring-2.6-1T 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#202	Hunter Alpha none	OpenRouter	10.0	4.2	$0.000	1/1	6.02s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 6.02s
#54	GPT-5.6 Luna medium	OpenAI	10.0	7.6	$0.352	1/1	6.02s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 6.02s
#27	Muse Spark 1.1 low	Meta	9.8	8.3	$0.647	1/1	5.98s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 5.98s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 5.93s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	1/1	5.87s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.405 प्रतिसाद वेळ (सरासरी) 5.87s
#181	Qwen3.6 Plus Preview medium	Qwen	10.0	4.9	$0.000	1/1	5.87s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 5.87s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	1/1	5.83s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 5.83s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	1/1	5.71s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 5.71s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	1/1	5.66s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 5.66s
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 5.51s
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 5.40s
#70	Claude Opus 4.8 none	Anthropic	10.0	7.3	$1.166	1/1	5.35s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 5.35s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	1/1	5.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 5.27s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	10.0	4.8	$0.067	1/1	5.13s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 5.13s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	1/1	5.09s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 5.09s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स