कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.1 Flash Lite Preview 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#132	Claude Sonnet 5 none	Anthropic	4.6	5.7	$0.287	0/3	3.67s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.287 प्रतिक्रिया समय (औसत) 3.67s
#150	Qwen3 Coder Next none	Qwen	4.6	5.1	$0.009	0/3	2.22s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 2.22s
#165	GPT-5.4 Nano none	OpenAI	4.6	4.8	$0.011	0/3	2.22s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 2.22s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 109.6s
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 42.9s
#67	Hy3 preview medium	Tencent	5.3	7.3	$0.018	1/3	31.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 31.4s
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 59.6s
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 99.8s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 27.9s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 11.2s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 143.8s
#55	GPT-5.6 Luna medium	OpenAI	5.4	7.6	$0.258	1/3	10.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.258 प्रतिक्रिया समय (औसत) 10.4s
#119	Qwen3.6 Flash none	Qwen	5.4	6.0	$0.015	1/3	1.79s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.79s
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 18.7s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.924 प्रतिक्रिया समय (औसत) 15.6s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल