कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.5	6.1	$0.027	1/3	1.02s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 1.02s
#117	GPT-5.6 Terra none	OpenAI	5.5	6.0	$0.130	1/3	1.00s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.130 प्रतिक्रिया समय (औसत) 1.00s
#119	Qwen3.6 Flash none	Qwen	5.4	6.0	$0.015	1/3	1.79s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	5.5	5.9	$0.012	1/3	1.39s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.012 प्रतिक्रिया समय (औसत) 1.39s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.80s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 3.13s
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 18.7s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.65s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 36.9s
#128	Kimi K2.6 none	Moonshot AI	5.5	5.8	$0.078	1/3	82.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 82.6s
#129	GPT-5.4 none	OpenAI	5.5	5.8	$0.122	1/3	1.62s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.62s
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 24.6s
#138	Qwen3.6 27B none	Qwen	5.5	5.5	$0.025	1/3	4.16s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 4.16s
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.038 प्रतिक्रिया समय (औसत) 913ms
#147	MiniMax M2.7 medium	Minimax	5.7	5.2	$0.100	1/3	101.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.100 प्रतिक्रिया समय (औसत) 101.9s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल