संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.5

सर्वोत्तम मॉडेल

Qwen3.6 35B A3B 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह68 अयशस्वी होण्याचे कारण उत्तर नाही सह29 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 817.6s
#130	Step 3.5 Flash medium	Stepfun	6.5	6.0	$0.108	1/2	813.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 813.7s
#194	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/2	802.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 802.8s
#58	Qwen3.5-27B medium	Qwen	7.3	7.4	$1.627	1/2	595.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 595.2s
#99	Qwen3.6 27B medium	Qwen	6.7	6.5	$0.779	0/2	584.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 584.1s
#137	North Mini Code medium	Cohere	2.9	5.9	$0.000	0/2	554.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 554.9s
#119	Qwen3.5-35B-A3B medium	Qwen	3.8	6.2	$0.837	0/2	512.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.837 प्रतिसाद वेळ (सरासरी) 512.8s
#95	Gemma 4 26B A4B medium	Google	6.3	6.6	$0.089	1/2	492.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.089 प्रतिसाद वेळ (सरासरी) 492.9s
#68	Kimi K2.6 medium	Moonshot AI	6.9	7.2	$1.036	1/2	458.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 458.6s
#110	Gemma 4 31B medium	Google	2.9	6.3	$0.163	0/2	433.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 433.1s
#31	GLM 5.2 high	Z.ai	10.0	8.0	$0.970	2/2	321.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.970 प्रतिसाद वेळ (सरासरी) 321.5s
#72	Qwen3.5-122B-A10B medium	Qwen	6.4	7.1	$1.046	1/2	313.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.046 प्रतिसाद वेळ (सरासरी) 313.5s
#85	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 299.2s
#8	Qwen3.7 Max medium	Qwen	8.7	9.2	$1.116	1/2	287.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.116 प्रतिसाद वेळ (सरासरी) 287.8s
#80	Seed-2.0-Mini medium	Bytedance Seed	7.3	7.0	$0.101	1/2	282.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 282.3s

1 2 14

→

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स