कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#52	MiniMax M3 medium	Minimax	6.1	7.6	$0.131	1/3	144.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 144.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.294 प्रतिक्रिया समय (औसत) 153.1s
#45	Qwen3.5-122B-A10B medium	Qwen	6.0	7.7	$0.588	1/3	114.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.588 प्रतिक्रिया समय (औसत) 114.5s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 63.4s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 10.7s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 94.2s
#61	DeepSeek V3.2 medium	DeepSeek	6.0	7.5	$0.042	1/3	248.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 248.7s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 38.4s
#47	Grok 4.3 medium	X AI	5.9	7.7	$0.614	1/3	41.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.614 प्रतिक्रिया समय (औसत) 41.2s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.401 प्रतिक्रिया समय (औसत) 206.6s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.80s
#65	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.111 प्रतिक्रिया समय (औसत) 6.00s
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.053 प्रतिक्रिया समय (औसत) 30.1s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.418 प्रतिक्रिया समय (औसत) 33.3s
#44	Kimi K2.6 medium	Moonshot AI	5.7	7.8	$0.888	1/3	214.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.888 प्रतिक्रिया समय (औसत) 214.4s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल