टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Hy3 preview 2.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#122	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	1/1	3.94s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.066 प्रतिसाद वेळ (सरासरी) 3.94s
#123	GPT-5.6 Luna low	OpenAI	10.0	6.2	$0.249	1/1	4.43s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 4.43s
#124	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 1.91s
#125	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	1/1	4.65s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.837 प्रतिसाद वेळ (सरासरी) 4.65s
#126	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	1/1	3.51s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 3.51s
#128	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	1/1	2.97s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 2.97s
#130	Qwen3.6 Flash none	Qwen	10.0	6.1	$0.062	1/1	2.49s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 2.49s
#131	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.073	1/1	3.67s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 3.67s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	6.1	$0.122	1/1	4.42s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 4.42s
#133	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 2.30s
#134	GPT-5 Nano medium	OpenAI	10.0	6.1	$0.114	1/1	33.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 33.3s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	1/1	2.99s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 2.99s
#136	Step 3.5 Flash medium	Stepfun	10.0	6.0	$0.108	1/1	11.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 11.9s
#139	Gemini 3 PRO Preview medium	Google	10.0	6.0	$0.385	1/1	12.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 12.0s
#140	Mimo V2 Omni medium	Xiaomi	10.0	5.9	$0.683	1/1	14.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 14.0s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स