कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

North Mini Code 4.5

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#21	Seed-2.0-Lite medium	Bytedance Seed	8.0	8.5	$0.175	2/3	156.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.175 प्रतिक्रिया समय (औसत) 156.7s
#26	Grok 4.5 medium	X AI	7.6	8.3	$1.696	2/3	155.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.696 प्रतिक्रिया समय (औसत) 155.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.294 प्रतिक्रिया समय (औसत) 153.1s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 147.3s
#79	Kimi K2.7 Code medium	Moonshot AI	7.6	7.0	$0.581	2/3	146.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.581 प्रतिक्रिया समय (औसत) 146.7s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.960 प्रतिक्रिया समय (औसत) 146.5s
#52	MiniMax M3 medium	Minimax	6.1	7.6	$0.131	1/3	144.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 144.7s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 143.8s
#95	Qwen3.6 27B medium	Qwen	7.7	6.6	$0.336	2/3	143.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.336 प्रतिक्रिया समय (औसत) 143.0s
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 137.6s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 125.3s
#45	Qwen3.5-122B-A10B medium	Qwen	6.0	7.7	$0.588	1/3	114.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.588 प्रतिक्रिया समय (औसत) 114.5s
#66	Grok 4.20 medium	X AI	6.3	7.3	$0.609	1/3	109.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 109.9s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 109.6s
#30	Qwen3.7 Plus medium	Qwen	6.1	8.2	$0.177	1/3	108.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 108.6s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल