टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#136	Step 3.5 Flash medium	Stepfun	10.0	6.0	$0.108	1/1	11.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 11.9s
#138	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 3.10s
#139	Gemini 3 PRO Preview medium	Google	10.0	6.0	$0.385	1/1	12.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 12.0s
#140	Mimo V2 Omni medium	Xiaomi	10.0	5.9	$0.683	1/1	14.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 14.0s
#141	Hy3 preview high	Tencent	10.0	5.9	$0.048	1/1	78.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 78.8s
#143	North Mini Code medium	Cohere	10.0	5.9	$0.000	1/1	3.93s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.93s
#144	Kimi K2.6 none	Moonshot AI	10.0	5.8	$0.184	1/1	4.46s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 4.46s
#145	GPT-5.4 none	OpenAI	10.0	5.8	$0.397	1/1	2.75s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.397 प्रतिसाद वेळ (सरासरी) 2.75s
#146	Nemotron 3 Super medium	NVIDIA	10.0	5.7	$0.055	1/1	39.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.055 प्रतिसाद वेळ (सरासरी) 39.7s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 11.1s
#148	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 2.04s
#149	Gemini 3.1 Flash Lite high	Google	10.0	5.6	$2.044	1/1	6.44s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 6.44s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	10.0	5.6	$0.077	1/1	4.77s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.077 प्रतिसाद वेळ (सरासरी) 4.77s
#151	GLM 5V Turbo none	Z.ai	10.0	5.6	$0.052	1/1	4.86s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 4.86s
#152	Owl Alpha medium	Openrouter	10.0	5.6	$0.000	1/1	8.26s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 8.26s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स