संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

Qwen3.6 35B A3B 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#33	Step 3.7 Flash medium	Stepfun	7.3	8.0	$0.515	1/2	80.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 80.9s
#80	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 79.9s
#50	DeepSeek V4 Pro high	DeepSeek	10.0	7.7	$0.200	2/2	79.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 79.0s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 78.7s
#107	MiMo-V2.5 medium	Xiaomi	8.7	6.5	$0.082	1/2	78.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.082 प्रतिसाद वेळ (सरासरी) 78.0s
#144	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 77.8s
#119	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 75.7s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	6.5	5.6	$0.077	1/2	74.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.077 प्रतिसाद वेळ (सरासरी) 74.5s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 73.0s
#178	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	72.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 72.1s
#86	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 71.6s
#30	Muse Spark 1.1 high	Meta	5.9	8.1	$1.694	0/2	70.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 70.3s
#71	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	66.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 66.2s
#56	Kimi K2.7 Code medium	Moonshot AI	7.3	7.5	$0.740	1/2	66.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 66.0s
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	2/2	65.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 65.1s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स