टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Ring-2.6-1T 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

210/210

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#108	Ring-2.6-1T medium	Inclusionai	10.0	6.3	$0.103	1/1	104.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 104.4s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	1/1	88.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 88.7s
#135	Hy3 preview high	Tencent	10.0	5.9	$0.048	1/1	78.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 78.8s
#150	DeepSeek V4 Flash none	DeepSeek	10.0	5.6	$0.044	1/1	77.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 77.9s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	1/1	74.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 74.7s
#156	Gemma 4 26B A4B none	Google	10.0	5.5	$0.015	1/1	57.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 57.1s
#140	Nemotron 3 Super medium	NVIDIA	10.0	5.7	$0.050	1/1	39.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.050 प्रतिसाद वेळ (सरासरी) 39.7s
#76	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	1/1	34.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 34.8s
#199	Hy3 preview none	Tencent	10.0	4.0	$0.003	1/1	33.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 33.8s
#128	GPT-5 Nano medium	OpenAI	10.0	6.1	$0.114	1/1	33.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 33.3s
#77	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	1/1	31.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 31.7s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	10.0	7.2	$0.482	1/1	28.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 28.0s
#113	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	1/1	27.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 27.8s
#185	Grok 4.1 Fast medium	X AI	2.8	4.7	$0.069	0/1	27.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 27.7s
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/1	25.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 25.7s

1 2 14

→

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स