संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#104	Gemini 3.5 Flash-Lite medium	Google	3.8	6.5	$0.369	0/2	28.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.369 प्रतिसाद वेळ (सरासरी) 28.7s
#178	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	72.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 72.1s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 73.0s
#196	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 83.2s
#98	GLM 5V Turbo medium	Z.ai	3.4	6.7	$0.457	0/1	15.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 15.1s
#111	Gemini 3.1 Flash Lite low	Google	3.2	6.5	$0.621	0/2	161.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 161.2s
#158	Qwen3.6 27B none	Qwen	3.2	5.5	$0.087	0/2	83.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 83.1s
#165	GPT-5.6 Luna none	OpenAI	3.2	5.4	$0.142	0/2	6.68s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 6.68s
#177	North Mini Code none	Cohere	3.2	5.1	$0.000	0/2	96.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 96.2s
#65	Gemini 3 Flash Preview low	Google	3.0	7.4	$0.177	0/2	10.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 10.2s
#83	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/2	0ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 0ms
#92	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.300	0/2	14.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 14.4s
#94	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 817.6s
#110	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.646	0/2	160.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 160.6s
#112	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.052	0/2	6.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 6.23s

←

1 9 10 11 15

→

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स