कोडिंग x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि कोडिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

230

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Flash 3

विफलता के कारण

गलत उत्तर230 API त्रुटि43 समय समाप्त23 कोई उत्तर नहीं18 निर्देशों का पालन नहीं किया16 अतिरिक्त फॉर्मेटिंग12

श्रेणियाँ

डोमेन-विशिष्ट367 एंटी-एआई ट्रिक्स270 कोडिंग230 पहेली समाधान172 सामान्य ज्ञान149 संयुक्त58 निर्देश पालन56 Samanya Buddhimatta49 डेटा पार्सिंग और निष्कर्षण36 टूल कॉलिंग3

134/134

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 42.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.075 प्रतिक्रिया समय (औसत) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 320.4s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.287 प्रतिक्रिया समय (औसत) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 17.1s
#140	GLM 5 Turbo none	Z.ai	3	3.9	$0.047	0/3	2.41s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.41s
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 623ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 980ms
#144	Qwen3.5-122B-A10B none	Qwen	3	3.7	$0.020	0/3	2.77s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 2.77s
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 901ms
#149	Qwen3 Coder Next none	Qwen	3	4.6	$0.009	0/3	2.22s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 2.22s
#150	North Mini Code none	Cohere	3	3.9	$0.000	0/3	22.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 22.0s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

कोडिंग: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल