कोडिंग x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि कोडिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

230

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Flash 3

विफलता के कारण

गलत उत्तर230 API त्रुटि43 समय समाप्त23 कोई उत्तर नहीं18 निर्देशों का पालन नहीं किया16 अतिरिक्त फॉर्मेटिंग12

श्रेणियाँ

डोमेन-विशिष्ट367 एंटी-एआई ट्रिक्स270 कोडिंग230 पहेली समाधान172 सामान्य ज्ञान149 संयुक्त58 निर्देश पालन56 Samanya Buddhimatta49 डेटा पार्सिंग और निष्कर्षण36 टूल कॉलिंग3

134/134

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#57	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 10.5s
#58	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.107 प्रतिक्रिया समय (औसत) 19.1s
#64	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.111 प्रतिक्रिया समय (औसत) 6.00s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 109.9s
#68	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 63.4s
#72	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.023 प्रतिक्रिया समय (औसत) 2.15s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 7.55s
#77	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 70.3s
#80	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.80s
#81	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 1.35s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.080 प्रतिक्रिया समय (औसत) 58.9s
#89	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 97.1s
#91	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 38.4s
#92	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.081 प्रतिक्रिया समय (औसत) 41.6s
#95	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 1.39s

←

1 2 3 4 9

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

कोडिंग: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल