टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Kimi K3 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#151	GLM 5V Turbo none	Z.ai	10.0	5.6	$0.052	1/1	4.86s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 4.86s
#4	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.976 प्रतिसाद वेळ (सरासरी) 4.96s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	1/1	4.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 4.96s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	1/1	4.97s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 4.97s
#48	GPT-5.6 Luna high	OpenAI	10.0	7.7	$1.017	1/1	4.98s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 4.98s
#65	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	1/1	4.99s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 4.99s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	1/1	5.09s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 5.09s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	10.0	4.8	$0.067	1/1	5.13s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 5.13s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	1/1	5.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 5.27s
#70	Claude Opus 4.8 none	Anthropic	10.0	7.3	$1.166	1/1	5.35s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 5.35s
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 5.40s
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 5.51s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	1/1	5.66s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 5.66s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	1/1	5.71s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 5.71s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	1/1	5.83s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 5.83s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स