कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Qwen3.6 Flash 5.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 42.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 272.5s
#74	GLM 5.2 none	Z.ai	3.7	7.1	$0.042	0/3	7.55s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 7.55s
#76	Step 3.7 Flash high	Stepfun	4.0	7.1	$1.148	0/3	206.2s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.148 प्रतिक्रिया समय (औसत) 206.2s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 109.6s
#84	Qwen3.5-Flash medium	Qwen	3.7	6.8	$0.080	0/3	58.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.080 प्रतिक्रिया समय (औसत) 58.9s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 183.9s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.070 प्रतिक्रिया समय (औसत) 258.4s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 147.3s
#103	Gemma 4 31B medium	Google	4.3	6.3	$0.033	0/3	219.8s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 219.8s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 0ms
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
कुल टेस्ट 0 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 0ms
#116	Qwen3.6 Max Preview none	Qwen	3.8	6.0	$0.075	0/3	3.12s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.075 प्रतिक्रिया समय (औसत) 3.12s
#118	GLM 5 none	Z.ai	4.0	6.0	$0.027	0/3	5.12s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 5.12s
#123	Qwen3.5 Plus 2026-02-15 none	Qwen	4.3	5.8	$0.016	0/3	2.05s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 2.05s

1 2 13

→

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल