कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

North Mini Code 4.5

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#21	Seed-2.0-Lite medium	Bytedance Seed	8.0	8.5	$0.175	2/3	156.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.175 प्रतिसाद वेळ (सरासरी) 156.7s
#26	Grok 4.5 medium	X AI	7.6	8.3	$1.696	2/3	155.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.696 प्रतिसाद वेळ (सरासरी) 155.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.294 प्रतिसाद वेळ (सरासरी) 153.1s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 147.3s
#79	Kimi K2.7 Code medium	Moonshot AI	7.6	7.0	$0.581	2/3	146.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.581 प्रतिसाद वेळ (सरासरी) 146.7s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.960 प्रतिसाद वेळ (सरासरी) 146.5s
#52	MiniMax M3 medium	Minimax	6.1	7.6	$0.131	1/3	144.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.131 प्रतिसाद वेळ (सरासरी) 144.7s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 143.8s
#95	Qwen3.6 27B medium	Qwen	7.7	6.6	$0.336	2/3	143.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.336 प्रतिसाद वेळ (सरासरी) 143.0s
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 137.6s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 125.3s
#45	Qwen3.5-122B-A10B medium	Qwen	6.0	7.7	$0.588	1/3	114.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.588 प्रतिसाद वेळ (सरासरी) 114.5s
#66	Grok 4.20 medium	X AI	6.3	7.3	$0.609	1/3	109.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.609 प्रतिसाद वेळ (सरासरी) 109.9s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 109.6s
#30	Qwen3.7 Plus medium	Qwen	6.1	8.2	$0.177	1/3	108.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 108.6s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स