संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

Qwen3.6 35B A3B 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#26	Claude Sonnet 5 medium	Anthropic	7.3	8.3	$0.922	1/2	51.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 51.9s
#182	GLM 4.7 Flash none	Z.ai	3.0	4.9	$0.016	0/2	50.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 50.2s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 50.2s
#194	Cobuddy medium	Baidu	1.5	4.7	$0.000	0/1	47.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 47.4s
#157	GLM 5.1 none	Z.ai	2.8	5.5	$0.164	0/2	46.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 46.9s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 46.0s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	2/2	44.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 44.4s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	43.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.477 प्रतिसाद वेळ (सरासरी) 43.4s
#19	Muse Spark 1.1 medium	Meta	8.3	8.6	$1.357	1/2	42.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 42.6s
#79	Grok 4.20 medium	X AI	8.7	7.1	$0.777	1/2	42.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 42.2s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	2/2	42.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.831 प्रतिसाद वेळ (सरासरी) 42.1s
#90	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.207 प्रतिसाद वेळ (सरासरी) 41.2s
#36	Inkling medium	Thinkingmachines	7.3	8.0	$0.391	1/2	41.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 41.2s
#10	Gemini 3.1 Pro Preview medium	Google	9.8	9.2	$1.361	2/2	40.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.361 प्रतिसाद वेळ (सरासरी) 40.4s
#167	Qwen3.6 35B A3B none	Qwen	3.8	5.3	$0.061	0/2	39.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 39.5s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स