कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

North Mini Code 4.5

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#145	Qwen3.5-122B-A10B none	Qwen	3.7	5.3	$0.020	0/3	2.77s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 2.77s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 2.75s
#131	Mimo V2 Omni none	Xiaomi	4.4	5.7	$0.021	0/3	2.75s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.75s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.65s
#162	Nemotron 3 Super none	NVIDIA	3.3	4.9	$0.006	0/3	2.64s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 2.64s
#179	MiMo-V2-Flash none	Xiaomi	4.3	4.3	$0.025	0/3	2.64s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.64s
#161	GLM 4.7 Flash none	Z.ai	4.3	4.9	$0.004	0/3	2.54s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 2.54s
#141	GLM 5 Turbo none	Z.ai	3.9	5.3	$0.047	0/3	2.41s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.41s
#150	Qwen3 Coder Next none	Qwen	4.6	5.1	$0.009	0/3	2.22s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 2.22s
#165	GPT-5.4 Nano none	OpenAI	4.6	4.8	$0.011	0/3	2.22s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 2.22s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.023 प्रतिक्रिया समय (औसत) 2.15s
#123	Qwen3.5 Plus 2026-02-15 none	Qwen	4.3	5.8	$0.016	0/3	2.05s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 2.05s
#57	Mercury 2 medium	Inception	8.2	7.5	$0.058	2/3	2.04s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 2.04s
#182	Laguna Xs.2 none	Poolside	8.3	4.0	$0.004	0/1	1.96s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 1.96s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.80s

←

1 9 10 11 13

→

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल