संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

Muse Spark 1.1 5.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#33	Step 3.7 Flash medium	Stepfun	7.3	8.0	$0.515	1/2	80.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 80.9s
#34	GPT-5.2 Chat none	OpenAI	7.3	8.0	$0.604	1/2	13.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 13.9s
#36	Inkling medium	Thinkingmachines	7.3	8.0	$0.391	1/2	41.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 41.2s
#37	Kimi K3 max	Moonshot AI	6.5	8.0	$3.112	1/2	223.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $3.112 प्रतिसाद वेळ (सरासरी) 223.0s
#38	GPT-5.6 Terra high	OpenAI	8.7	8.0	$1.055	1/2	13.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 13.7s
#39	Seed-2.0-Lite medium	Bytedance Seed	6.4	7.9	$0.234	1/2	58.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 58.5s
#40	Qwen3.7 Plus medium	Qwen	8.2	7.9	$0.267	1/2	190.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 190.3s
#49	DeepSeek V4 Flash high	DeepSeek	6.4	7.7	$0.041	1/2	104.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 104.1s
#55	Nemotron 3 Ultra medium	NVIDIA	6.3	7.5	$0.774	1/2	218.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 218.2s
#56	Kimi K2.7 Code medium	Moonshot AI	7.3	7.5	$0.740	1/2	66.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 66.0s
#59	GPT-5.6 Terra low	OpenAI	8.7	7.5	$0.519	1/2	9.68s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 9.68s
#60	GPT-5.4 Mini medium	OpenAI	6.9	7.5	$0.756	1/2	59.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 59.6s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.9	7.5	$0.437	1/2	175.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 175.8s
#62	Qwen3.5-27B medium	Qwen	7.3	7.4	$1.627	1/2	595.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 595.2s
#63	Qwen3.7 Max none	Qwen	6.5	7.4	$0.197	1/2	37.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 37.2s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स