कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Qwen3.6 Flash 5.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 9.57s
#185	Qwen3.5-9B medium	Qwen	2.9	3.8	$0.036	0/3	100.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 100.9s
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 38.1s
#188	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
कुल टेस्ट 0 गलत टेस्ट 0 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 0ms
#30	Qwen3.7 Plus medium	Qwen	6.1	8.2	$0.177	1/3	108.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 108.6s
#32	GLM 5.2 high	Z.ai	6.4	8.0	$0.554	1/3	73.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.554 प्रतिक्रिया समय (औसत) 73.0s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.6	8.0	$0.310	1/3	180.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.310 प्रतिक्रिया समय (औसत) 180.7s
#35	Qwen3.5-27B medium	Qwen	6.2	7.9	$0.536	1/3	160.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.536 प्रतिक्रिया समय (औसत) 160.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.294 प्रतिक्रिया समय (औसत) 153.1s
#38	GPT-5.6 Terra medium	OpenAI	6.1	7.8	$0.496	1/3	7.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.496 प्रतिक्रिया समय (औसत) 7.19s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.418 प्रतिक्रिया समय (औसत) 33.3s
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 4.09s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 125.3s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.071 प्रतिक्रिया समय (औसत) 3.81s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल