संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

Qwen3.6 35B A3B 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 64.8s
#115	Mimo V2 PRO medium	Xiaomi	2.3	6.3	$0.333	0/1	64.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 64.7s
#32	Inkling high	Thinkingmachines	7.3	8.0	$1.006	1/2	63.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 63.8s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 61.6s
#124	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 61.2s
#161	Kimi K2.5 none	Moonshot AI	2.8	5.5	$0.127	0/2	61.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 61.0s
#60	GPT-5.4 Mini medium	OpenAI	6.9	7.5	$0.756	1/2	59.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 59.6s
#39	Seed-2.0-Lite medium	Bytedance Seed	6.4	7.9	$0.234	1/2	58.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 58.5s
#24	GPT-5.2 medium	OpenAI	10.0	8.4	$0.951	2/2	58.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 58.5s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	2/2	56.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.785 प्रतिसाद वेळ (सरासरी) 56.3s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	6.4	5.4	$0.041	1/2	55.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 55.9s
#77	Grok 4.3 medium	X AI	6.5	7.1	$0.779	1/2	55.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 55.1s
#17	Claude Opus 4.8 medium	Anthropic	9.9	8.8	$1.931	2/2	54.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 54.3s
#192	Laguna M.1 medium	Poolside	1.5	4.7	$0.033	0/1	53.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 53.1s
#42	GLM 5.2 medium	Z.ai	5.0	7.8	$0.187	1/1	52.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 52.0s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स