कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.1 Flash Lite Preview 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#63	Seed-2.0-Mini medium	Bytedance Seed	5.5	7.4	$0.044	1/3	220.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 220.5s
#128	Kimi K2.6 none	Moonshot AI	5.5	5.8	$0.078	1/3	82.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 82.6s
#58	GPT-5.3 Chat none	OpenAI	5.6	7.5	$0.433	1/3	10.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 10.5s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 13.4s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 2.83s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 2.75s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 36.9s
#54	Grok Build 0.1 medium	X AI	5.7	7.6	$0.927	1/3	108.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.927 प्रतिक्रिया समय (औसत) 108.5s
#147	MiniMax M2.7 medium	Minimax	5.7	5.2	$0.100	1/3	101.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.100 प्रतिक्रिया समय (औसत) 101.9s
#44	Kimi K2.6 medium	Moonshot AI	5.7	7.8	$0.888	1/3	214.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.888 प्रतिक्रिया समय (औसत) 214.4s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.418 प्रतिक्रिया समय (औसत) 33.3s
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.053 प्रतिक्रिया समय (औसत) 30.1s
#65	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.111 प्रतिक्रिया समय (औसत) 6.00s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.80s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.401 प्रतिक्रिया समय (औसत) 206.6s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल