कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.053 प्रतिक्रिया समय (औसत) 30.1s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.924 प्रतिक्रिया समय (औसत) 15.6s
#52	MiniMax M3 medium	Minimax	6.1	7.6	$0.131	1/3	144.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.131 प्रतिक्रिया समय (औसत) 144.7s
#53	DeepSeek V4 Pro high	DeepSeek	6.1	7.6	$0.157	1/3	243.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.157 प्रतिक्रिया समय (औसत) 243.0s
#54	Grok Build 0.1 medium	X AI	5.7	7.6	$0.927	1/3	108.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.927 प्रतिक्रिया समय (औसत) 108.5s
#55	GPT-5.6 Luna medium	OpenAI	5.4	7.6	$0.258	1/3	10.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.258 प्रतिक्रिया समय (औसत) 10.4s
#56	Kimi K2.5 medium	Moonshot AI	6.1	7.5	$0.348	1/3	217.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.348 प्रतिक्रिया समय (औसत) 217.5s
#58	GPT-5.3 Chat none	OpenAI	5.6	7.5	$0.433	1/3	10.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 10.5s
#59	GPT-5.4 Nano medium	OpenAI	6.1	7.5	$0.107	1/3	19.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.107 प्रतिक्रिया समय (औसत) 19.1s
#61	DeepSeek V3.2 medium	DeepSeek	6.0	7.5	$0.042	1/3	248.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	5.5	7.4	$0.044	1/3	220.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 220.5s
#64	MiMo-V2.5-Pro medium	Xiaomi	6.2	7.4	$0.106	1/3	92.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 92.1s
#65	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.111 प्रतिक्रिया समय (औसत) 6.00s
#66	Grok 4.20 medium	X AI	6.3	7.3	$0.609	1/3	109.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 109.9s
#67	Hy3 preview medium	Tencent	5.3	7.3	$0.018	1/3	31.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 31.4s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल