कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

North Mini Code 4.5

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 38.4s
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 38.1s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 36.9s
#158	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 35.6s
#4	Qwen3.7 Max medium	Qwen	10.0	9.4	$0.523	3/3	35.3s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.523 प्रतिक्रिया समय (औसत) 35.3s
#80	Gemini 3.5 Flash none	Google	8.8	7.0	$1.079	2/3	34.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 34.7s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.418 प्रतिक्रिया समय (औसत) 33.3s
#67	Hy3 preview medium	Tencent	5.3	7.3	$0.018	1/3	31.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 31.4s
#83	Grok 4.20 Beta medium	X AI	3.3	6.8	$0.750	1/1	31.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 31.4s
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.053 प्रतिक्रिया समय (औसत) 30.1s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 27.9s
#19	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	3/3	27.6s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.159 प्रतिक्रिया समय (औसत) 27.6s
#23	Step 3.7 Flash medium	Stepfun	8.8	8.5	$0.376	2/3	27.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.376 प्रतिक्रिया समय (औसत) 27.4s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 27.1s
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	8.4	8.1	$0.158	2/3	26.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.158 प्रतिक्रिया समय (औसत) 26.5s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल