टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Hy3 preview 2.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#69	Gemini 3.1 Flash Lite medium	Google	10.0	7.3	$0.117	1/1	4.55s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 4.55s
#70	Claude Opus 4.8 none	Anthropic	10.0	7.3	$1.166	1/1	5.35s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 5.35s
#71	Step 3.7 Flash low	Stepfun	10.0	7.3	$0.454	1/1	3.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 3.25s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	1/1	8.92s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 8.92s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10.0	7.2	$0.482	1/1	28.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 28.0s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	1/1	14.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 14.7s
#75	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	1/1	3.54s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 3.54s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	1/1	4.60s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.046 प्रतिसाद वेळ (सरासरी) 4.60s
#77	Grok 4.3 medium	X AI	10.0	7.1	$0.779	1/1	17.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 17.7s
#80	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	1/1	34.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 34.8s
#81	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	1/1	31.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 31.7s
#82	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.89s
#84	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	1/1	88.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 88.7s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	10.0	6.9	$0.467	1/1	19.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 19.0s
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 7.40s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स