कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Qwen3.6 Flash 5.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#124	North Mini Code medium	Cohere	4.5	5.8	$0.000	0/3	320.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 320.4s
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#131	Mimo V2 Omni none	Xiaomi	4.4	5.7	$0.021	0/3	2.75s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.75s
#132	Claude Sonnet 5 none	Anthropic	4.6	5.7	$0.287	0/3	3.67s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.287 प्रतिक्रिया समय (औसत) 3.67s
#133	Grok 4.1 Fast medium	X AI	7.8	5.6	$0.069	0/1	23.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 23.6s
#134	GLM 5.1 none	Z.ai	3.9	5.6	$0.057	0/3	4.96s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 4.96s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 17.1s
#137	MiMo-V2.5-Pro none	Xiaomi	4.3	5.5	$0.017	0/3	1.41s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 1.41s
#139	Gemma 4 26B A4B none	Google	3.7	5.5	$0.004	0/3	4.16s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	3.9	5.5	$0.032	0/3	1.69s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 1.69s
#141	GLM 5 Turbo none	Z.ai	3.9	5.3	$0.047	0/3	2.41s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.41s
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 623ms
#143	GPT-5.6 Luna none	OpenAI	3.8	5.3	$0.047	0/3	980ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 980ms
#145	Qwen3.5-122B-A10B none	Qwen	3.7	5.3	$0.020	0/3	2.77s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 2.77s
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 14.5s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल