संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.6

सर्वोत्तम मॉडेल

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह69 अयशस्वी होण्याचे कारण उत्तर नाही सह32 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	7.3	7.2	$0.482	1/2	106.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 106.7s
#80	DeepSeek V3.2 medium	DeepSeek	7.3	7.0	$0.078	1/2	79.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 79.9s
#84	Seed-2.0-Mini medium	Bytedance Seed	7.3	7.0	$0.101	1/2	282.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 282.3s
#114	Ring-2.6-1T medium	Inclusionai	7.3	6.3	$0.103	1/2	257.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 257.3s
#26	Claude Sonnet 5 medium	Anthropic	7.3	8.3	$0.922	1/2	51.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 51.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.2	7.3	$0.115	1/2	16.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 16.6s
#69	Gemini 3.1 Flash Lite medium	Google	7.2	7.3	$0.117	1/2	18.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 18.5s
#60	GPT-5.4 Mini medium	OpenAI	6.9	7.5	$0.756	1/2	59.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 59.6s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.9	7.5	$0.437	1/2	175.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 175.8s
#72	Kimi K2.6 medium	Moonshot AI	6.9	7.2	$1.036	1/2	458.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 458.6s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.9	6.9	$0.187	1/2	125.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 125.4s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 50.2s
#81	Kimi K2.5 medium	Moonshot AI	6.7	7.0	$0.600	1/2	89.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 89.2s
#82	Mercury 2 medium	Inception	6.7	7.0	$0.093	1/2	7.84s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 7.84s
#105	Qwen3.6 27B medium	Qwen	6.7	6.5	$0.779	0/2	584.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 584.1s

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स