कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.1 Flash Lite Preview 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#145	Qwen3.5-122B-A10B none	Qwen	3.7	5.3	$0.020	0/3	2.77s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 2.77s
#74	GLM 5.2 none	Z.ai	3.7	7.1	$0.042	0/3	7.55s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 7.55s
#149	Mistral Small 4 none	Mistral	3.7	5.1	$0.007	0/3	901ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 901ms
#173	Elephant Alpha medium	Openrouter	3.7	4.5	$0.000	0/3	1.30s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.30s
#84	Qwen3.5-Flash medium	Qwen	3.7	6.8	$0.080	0/3	58.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.080 प्रतिक्रिया समय (औसत) 58.9s
#139	Gemma 4 26B A4B none	Google	3.7	5.5	$0.004	0/3	4.16s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 4.16s
#168	Qwen3 Coder Next medium	Qwen	3.7	4.7	$0.008	0/3	924ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 924ms
#160	Cobuddy medium	Baidu	3.7	4.9	$0.000	0/3	79.2s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 79.2s
#143	GPT-5.6 Luna none	OpenAI	3.8	5.3	$0.047	0/3	980ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 980ms
#167	Ling-2.6-1T none	Inclusionai	3.8	4.7	$0.005	0/3	10.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.005 प्रतिक्रिया समय (औसत) 10.6s
#116	Qwen3.6 Max Preview none	Qwen	3.8	6.0	$0.075	0/3	3.12s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.075 प्रतिक्रिया समय (औसत) 3.12s
#134	GLM 5.1 none	Z.ai	3.9	5.6	$0.057	0/3	4.96s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 4.96s
#151	North Mini Code none	Cohere	3.9	5.1	$0.000	0/3	22.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 22.0s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	3.9	5.5	$0.032	0/3	1.69s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 1.69s
#141	GLM 5 Turbo none	Z.ai	3.9	5.3	$0.047	0/3	2.41s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.41s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल