संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#122	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.066 प्रतिसाद वेळ (सरासरी) 25.6s
#124	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 61.2s
#126	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 7.75s
#128	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 9.49s
#135	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 21.1s
#144	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 77.8s
#145	GPT-5.4 none	OpenAI	3.0	5.8	$0.397	0/2	9.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.397 प्रतिसाद वेळ (सरासरी) 9.26s
#160	MiMo-V2.5-Pro none	Xiaomi	3.0	5.5	$0.068	0/2	28.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 28.3s
#162	Gemma 4 26B A4B none	Google	3.0	5.5	$0.015	0/2	37.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 37.2s
#166	Laguna XS 2.1 none	Poolside	3.0	5.3	$0.008	0/2	10.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 10.4s
#171	Mistral Small 4 none	Mistral	3.0	5.1	$0.022	0/2	7.44s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 7.44s
#172	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/2	30.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 30.9s
#173	Mistral Small 4 medium	Mistral	3.0	5.1	$0.096	0/2	32.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 32.4s
#174	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.025	0/2	28.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 28.9s
#175	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/2	194.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 194.0s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स