कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.316 प्रतिक्रिया समय (औसत) 5.19s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 63.4s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.539 प्रतिक्रिया समय (औसत) 3.29s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 13.4s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.023 प्रतिक्रिया समय (औसत) 2.15s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 10.7s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 70.3s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.80s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 1.35s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 2.75s
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 59.6s
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 99.8s
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 97.1s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 94.2s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 38.4s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल