संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.5

सर्वोत्तम मॉडेल

Gemini 3 PRO Preview 1.5

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह96 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह71 अयशस्वी होण्याचे कारण उत्तर नाही सह33 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

220/220

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#92	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.300	0/2	14.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 14.4s
#94	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 817.6s
#110	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.646	0/2	160.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 160.6s
#112	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.052	0/2	6.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 6.23s
#122	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.066 प्रतिसाद वेळ (सरासरी) 25.6s
#124	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 61.2s
#126	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 7.75s
#128	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 9.49s
#135	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 21.1s
#144	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 77.8s
#145	GPT-5.4 none	OpenAI	3.0	5.8	$0.397	0/2	9.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.397 प्रतिसाद वेळ (सरासरी) 9.26s
#160	MiMo-V2.5-Pro none	Xiaomi	3.0	5.5	$0.068	0/2	28.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 28.3s
#162	Gemma 4 26B A4B none	Google	3.0	5.5	$0.015	0/2	37.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 37.2s
#168	Laguna XS 2.1 none	Poolside	3.0	5.3	$0.008	0/2	10.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 10.4s
#173	Mistral Small 4 none	Mistral	3.0	5.1	$0.022	0/2	7.44s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 7.44s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स