संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.5

सर्वोत्तम मॉडेल

Muse Spark 1.1 5.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह68 अयशस्वी होण्याचे कारण उत्तर नाही सह29 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#27	Muse Spark 1.1 high	Meta	5.9	8.1	$1.694	0/2	70.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 70.3s
#61	Gemini 3 Flash Preview low	Google	3.0	7.4	$0.177	0/2	10.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 10.2s
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/2	0ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 0ms
#88	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.300	0/2	14.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 14.4s
#89	Gemini 3 Flash Preview none	Google	3.8	6.8	$0.085	0/2	12.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 12.4s
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 817.6s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	4.1	6.7	$0.476	0/2	183.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 183.1s
#93	GLM 5V Turbo medium	Z.ai	3.4	6.7	$0.457	0/1	15.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 15.1s
#99	Qwen3.6 27B medium	Qwen	6.7	6.5	$0.779	0/2	584.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 584.1s
#104	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.646	0/2	160.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 160.6s
#105	Gemini 3.1 Flash Lite low	Google	3.2	6.5	$0.621	0/2	161.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 161.2s
#106	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.052	0/2	6.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 6.23s
#109	Mimo V2 PRO medium	Xiaomi	2.3	6.3	$0.333	0/1	64.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 64.7s
#110	Gemma 4 31B medium	Google	2.9	6.3	$0.163	0/2	433.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 433.1s
#115	Gemma 4 31B none	Google	3.8	6.2	$0.035	0/2	30.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.035 प्रतिसाद वेळ (सरासरी) 30.0s

1 2 14

→

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स