संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.5

सर्वोत्तम मॉडेल

Qwen3.6 35B A3B 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह68 अयशस्वी होण्याचे कारण उत्तर नाही सह29 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#163	Gemini 3.1 Flash Lite Preview high	Google	5.0	5.3	$2.310	1/1	280.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 280.5s
#114	Qwen3.5-Flash medium	Qwen	6.4	6.2	$0.139	1/2	266.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 266.6s
#140	Nemotron 3 Super medium	NVIDIA	6.4	5.7	$0.050	1/2	259.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.050 प्रतिसाद वेळ (सरासरी) 259.9s
#108	Ring-2.6-1T medium	Inclusionai	7.3	6.3	$0.103	1/2	257.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 257.3s
#125	Qwen3.5-Flash none	Qwen	2.9	6.1	$0.073	0/2	243.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 243.6s
#33	Kimi K3 max	Moonshot AI	6.5	8.0	$3.112	1/2	223.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $3.112 प्रतिसाद वेळ (सरासरी) 223.0s
#51	Nemotron 3 Ultra medium	NVIDIA	6.3	7.5	$0.774	1/2	218.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 218.2s
#102	Laguna XS 2.1 medium	Poolside	6.3	6.5	$0.068	1/2	218.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 218.1s
#169	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/2	194.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 194.0s
#36	Qwen3.7 Plus medium	Qwen	8.2	7.9	$0.267	1/2	190.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 190.3s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	4.1	6.7	$0.476	0/2	183.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 183.1s
#150	DeepSeek V4 Flash none	DeepSeek	4.6	5.6	$0.044	0/2	179.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 179.6s
#19	Qwen3.6 Max Preview medium	Qwen	7.3	8.4	$1.143	1/2	177.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 177.5s
#74	GLM 5.1 medium	Z.ai	9.8	7.1	$0.535	2/2	175.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 175.9s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.9	7.5	$0.437	1/2	175.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 175.8s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स