टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Ring-2.6-1T 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

210/210

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	1/1	23.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.361 प्रतिसाद वेळ (सरासरी) 23.1s
#148	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 22.8s
#38	GLM 5.2 medium	Z.ai	10.0	7.8	$0.222	1/1	20.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.222 प्रतिसाद वेळ (सरासरी) 20.4s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	10.0	6.9	$0.467	1/1	19.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 19.0s
#178	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 18.8s
#26	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	1/1	18.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 18.6s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	1/1	18.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 18.4s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	1/1	18.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 18.3s
#153	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 17.8s
#73	Grok 4.3 medium	X AI	10.0	7.1	$0.779	1/1	17.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 17.7s
#184	Hunter Alpha medium	OpenRouter	10.0	4.7	$0.000	1/1	17.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 17.3s
#17	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	1/1	17.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 17.0s
#99	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	1/1	16.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 16.9s
#84	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 16.9s
#177	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 16.0s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स