कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

North Mini Code 4.5

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#124	North Mini Code medium	Cohere	4.5	5.8	$0.000	0/3	320.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 320.4s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 272.5s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.070 प्रतिक्रिया समय (औसत) 258.4s
#61	DeepSeek V3.2 medium	DeepSeek	6.0	7.5	$0.042	1/3	248.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 248.7s
#53	DeepSeek V4 Pro high	DeepSeek	6.1	7.6	$0.157	1/3	243.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.157 प्रतिक्रिया समय (औसत) 243.0s
#63	Seed-2.0-Mini medium	Bytedance Seed	5.5	7.4	$0.044	1/3	220.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 220.5s
#103	Gemma 4 31B medium	Google	4.3	6.3	$0.033	0/3	219.8s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 219.8s
#56	Kimi K2.5 medium	Moonshot AI	6.1	7.5	$0.348	1/3	217.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.348 प्रतिक्रिया समय (औसत) 217.5s
#44	Kimi K2.6 medium	Moonshot AI	5.7	7.8	$0.888	1/3	214.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.888 प्रतिक्रिया समय (औसत) 214.4s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.401 प्रतिक्रिया समय (औसत) 206.6s
#76	Step 3.7 Flash high	Stepfun	4.0	7.1	$1.148	0/3	206.2s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.148 प्रतिक्रिया समय (औसत) 206.2s
#166	MiniMax M2.5 medium	Minimax	3.4	4.7	$0.303	0/3	188.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 188.6s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 183.9s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.6	8.0	$0.310	1/3	180.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.310 प्रतिक्रिया समय (औसत) 180.7s
#35	Qwen3.5-27B medium	Qwen	6.2	7.9	$0.536	1/3	160.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.536 प्रतिक्रिया समय (औसत) 160.7s

1 2 13

→

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल