कोडिंग x कोई उत्तर नहीं रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि कोडिंग में किन AI मॉडलों में कोई उत्तर नहीं आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Gemma 4 26B A4B 2

विफलता के कारण

गलत उत्तर230 API त्रुटि43 समय समाप्त23 कोई उत्तर नहीं18 निर्देशों का पालन नहीं किया16 अतिरिक्त फॉर्मेटिंग12

श्रेणियाँ

कोडिंग18 सामान्य ज्ञान10 डोमेन-विशिष्ट6 डेटा पार्सिंग और निष्कर्षण5 एंटी-एआई ट्रिक्स4 संयुक्त3 टूल कॉलिंग2 निर्देश पालन2 पहेली समाधान2

16/16

रैंक	मॉडल	कंपनी	कोई उत्तर नहीं संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 272.5s
#75	Step 3.7 Flash high	Stepfun	2	4.0	$1.148	0/3	206.2s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.148 प्रतिक्रिया समय (औसत) 206.2s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 109.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 183.9s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.070 प्रतिक्रिया समय (औसत) 258.4s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 219.8s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 188.6s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 55.3s
#184	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 100.9s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.888 प्रतिक्रिया समय (औसत) 214.4s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.348 प्रतिक्रिया समय (औसत) 217.5s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.401 प्रतिक्रिया समय (औसत) 206.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.100 प्रतिक्रिया समय (औसत) 101.9s
#24	GLM 5 Turbo medium	Z.ai	1	8.2	$0.323	2/3	45.9s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 45.9s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.146 प्रतिक्रिया समय (औसत) 50.5s

मॉडल फ़िल्टर करें

कोई उत्तर नहीं संख्या के अनुसार शीर्ष मॉडल

कोई उत्तर नहीं संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

कोडिंग: कोई उत्तर नहीं

मॉडल फ़िल्टर करें

कोई उत्तर नहीं संख्या के अनुसार शीर्ष मॉडल

कोई उत्तर नहीं संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल