कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Qwen3.6 Flash 5.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 59.6s
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 99.8s
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 97.1s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 94.2s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 38.4s
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.081 प्रतिक्रिया समय (औसत) 41.6s
#96	Gemini 3.1 Flash Lite Preview low	Google	5.5	6.5	$0.026	1/3	1.39s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 1.39s
#98	Gemini 3.1 Flash Lite Preview none	Google	5.5	6.4	$0.018	1/3	967ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 967ms
#99	Gemini 3.1 Flash Lite low	Google	5.5	6.4	$0.028	1/3	1.53s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.028 प्रतिक्रिया समय (औसत) 1.53s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 27.9s
#102	GPT-5.6 Sol none	OpenAI	5.5	6.3	$0.225	1/3	1.39s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.225 प्रतिक्रिया समय (औसत) 1.39s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.401 प्रतिक्रिया समय (औसत) 206.6s
#105	GPT-5.5 none	OpenAI	5.5	6.3	$0.231	1/3	1.35s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 2.83s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.141 प्रतिक्रिया समय (औसत) 4.61s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल