टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Kimi K3 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 7.56s
#57	GPT-5.4 Nano medium	OpenAI	10.0	7.5	$0.138	1/1	7.71s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 7.71s
#55	Nemotron 3 Ultra medium	NVIDIA	10.0	7.5	$0.774	1/1	7.72s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 7.72s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	1/1	7.73s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 7.73s
#115	Mimo V2 PRO medium	Xiaomi	10.0	6.3	$0.333	1/1	8.19s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 8.19s
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	1/1	8.21s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 8.21s
#152	Owl Alpha medium	Openrouter	10.0	5.6	$0.000	1/1	8.26s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 8.26s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	1/1	8.36s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 8.36s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.831 प्रतिसाद वेळ (सरासरी) 8.55s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	1/1	8.92s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 8.92s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	1/1	8.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 8.96s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.089 प्रतिसाद वेळ (सरासरी) 9.01s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	1/1	9.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.817 प्रतिसाद वेळ (सरासरी) 9.25s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	1/1	9.54s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 9.54s
#60	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 9.62s

←

1 9 10 11 15

→

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स