कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3 PRO Preview 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#150	Qwen3 Coder Next none	Qwen	4.6	5.1	$0.009	0/3	2.22s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 2.22s
#141	GLM 5 Turbo none	Z.ai	3.9	5.3	$0.047	0/3	2.41s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 2.41s
#161	GLM 4.7 Flash none	Z.ai	4.3	4.9	$0.004	0/3	2.54s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 2.54s
#179	MiMo-V2-Flash none	Xiaomi	4.3	4.3	$0.025	0/3	2.64s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.64s
#162	Nemotron 3 Super none	NVIDIA	3.3	4.9	$0.006	0/3	2.64s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 2.64s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 2.65s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 2.75s
#131	Mimo V2 Omni none	Xiaomi	4.4	5.7	$0.021	0/3	2.75s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.75s
#145	Qwen3.5-122B-A10B none	Qwen	3.7	5.3	$0.020	0/3	2.77s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 2.77s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 2.83s
#62	Claude Opus 4.7 none	Anthropic	3.3	7.4	$0.505	1/1	2.84s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.505 प्रतिसाद वेळ (सरासरी) 2.84s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 2.93s
#116	Qwen3.6 Max Preview none	Qwen	3.8	6.0	$0.075	0/3	3.12s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.075 प्रतिसाद वेळ (सरासरी) 3.12s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 3.13s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 3.24s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स