कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

North Mini Code 4.5

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 38.4s
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 38.1s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 36.9s
#158	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 35.6s
#4	Qwen3.7 Max medium	Qwen	10.0	9.4	$0.523	3/3	35.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.523 प्रतिसाद वेळ (सरासरी) 35.3s
#80	Gemini 3.5 Flash none	Google	8.8	7.0	$1.079	2/3	34.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 34.7s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.418 प्रतिसाद वेळ (सरासरी) 33.3s
#67	Hy3 preview medium	Tencent	5.3	7.3	$0.018	1/3	31.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 31.4s
#83	Grok 4.20 Beta medium	X AI	3.3	6.8	$0.750	1/1	31.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 31.4s
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.053 प्रतिसाद वेळ (सरासरी) 30.1s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 27.9s
#19	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	3/3	27.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.159 प्रतिसाद वेळ (सरासरी) 27.6s
#23	Step 3.7 Flash medium	Stepfun	8.8	8.5	$0.376	2/3	27.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.376 प्रतिसाद वेळ (सरासरी) 27.4s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 27.1s
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	8.4	8.1	$0.158	2/3	26.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.158 प्रतिसाद वेळ (सरासरी) 26.5s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स