कोडिंग x उत्तर नाही क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना उत्तर नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Gemma 4 26B A4B 2

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला23 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

कोडिंग18 सामान्य ज्ञान10 डोमेन-विशिष्ट6 डेटा पार्सिंग आणि निष्कर्षण5 अँटी-एआय युक्त्या4 संयुक्त3 कोडी सोडवणे2 टूल कॉलिंग2 सूचनांचे पालन2

16/16

क्रमांक	मॉडेल	कंपनी	उत्तर नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 272.5s
#75	Step 3.7 Flash high	Stepfun	2	4.0	$1.148	0/3	206.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.148 प्रतिसाद वेळ (सरासरी) 206.2s
#24	GLM 5 Turbo medium	Z.ai	1	8.2	$0.323	2/3	45.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 45.9s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.888 प्रतिसाद वेळ (सरासरी) 214.4s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.348 प्रतिसाद वेळ (सरासरी) 217.5s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 109.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 183.9s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.146 प्रतिसाद वेळ (सरासरी) 50.5s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.070 प्रतिसाद वेळ (सरासरी) 258.4s
#94	Qwen3.6 27B medium	Qwen	1	7.7	$0.336	2/3	143.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.336 प्रतिसाद वेळ (सरासरी) 143.0s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 219.8s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.401 प्रतिसाद वेळ (सरासरी) 206.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.100 प्रतिसाद वेळ (सरासरी) 101.9s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.303 प्रतिसाद वेळ (सरासरी) 188.6s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 55.3s

मॉडेल फिल्टर करा

उत्तर नाही संख्या नुसार शीर्ष मॉडेल्स

उत्तर नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: उत्तर नाही

मॉडेल फिल्टर करा

उत्तर नाही संख्या नुसार शीर्ष मॉडेल्स

उत्तर नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स