टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#172	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.47s
#173	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 3.50s
#174	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.43s
#175	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 1.27s
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	1/1	8.21s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 8.21s
#177	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.64s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 11.8s
#180	GPT-4o-mini none	OpenAI	10.0	5.0	$0.010	1/1	2.51s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 2.51s
#181	Qwen3.6 Plus Preview medium	Qwen	10.0	4.9	$0.000	1/1	5.87s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 5.87s
#186	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 3.40s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	10.0	4.8	$0.067	1/1	5.13s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 5.13s
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	1/1	6.67s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 6.67s
#190	Hunter Alpha medium	OpenRouter	10.0	4.7	$0.000	1/1	17.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 17.3s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	1/1	6.31s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 6.31s
#193	Qwen3 Coder Next medium	Qwen	10.0	4.7	$0.032	1/1	2.64s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 2.64s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स