कोडिंग x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि कोडिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

230

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Flash 3

विफलता के कारण

गलत उत्तर230 API त्रुटि43 समय समाप्त25 कोई उत्तर नहीं18 निर्देशों का पालन नहीं किया16 अतिरिक्त फॉर्मेटिंग12

श्रेणियाँ

डोमेन-विशिष्ट368 एंटी-एआई ट्रिक्स270 कोडिंग230 पहेली समाधान173 सामान्य ज्ञान150 संयुक्त58 निर्देश पालन56 Samanya Buddhimatta49 डेटा पार्सिंग और निष्कर्षण36 टूल कॉलिंग3

134/134

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	1	8.4	$0.158	2/3	26.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.158 प्रतिक्रिया समय (औसत) 26.5s
#33	GPT-5.4 Mini medium	OpenAI	1	8.4	$0.526	2/3	57.9s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.526 प्रतिक्रिया समय (औसत) 57.9s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.310 प्रतिक्रिया समय (औसत) 180.7s
#36	Claude Sonnet 5 medium	Anthropic	1	9.0	$0.550	2/3	17.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.550 प्रतिक्रिया समय (औसत) 17.3s
#37	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.294 प्रतिक्रिया समय (औसत) 153.1s
#39	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.418 प्रतिक्रिया समय (औसत) 33.3s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.588 प्रतिक्रिया समय (औसत) 114.5s
#46	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.270 प्रतिक्रिया समय (औसत) 7.58s
#47	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.614 प्रतिक्रिया समय (औसत) 41.2s
#50	Step 3.7 Flash low	Stepfun	1	8.2	$0.341	2/3	9.46s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.341 प्रतिक्रिया समय (औसत) 9.46s
#54	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.927 प्रतिक्रिया समय (औसत) 108.5s
#57	Mercury 2 medium	Inception	1	8.2	$0.058	2/3	2.04s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 2.04s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 220.5s
#68	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.316 प्रतिक्रिया समय (औसत) 5.19s

←

1 6 7 8 9

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

कोडिंग: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल