कोडिंग x उत्तर नाही क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना उत्तर नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Gemma 4 26B A4B 2

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला23 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

कोडिंग18 सामान्य ज्ञान10 डोमेन-विशिष्ट6 डेटा पार्सिंग आणि निष्कर्षण5 अँटी-एआय युक्त्या4 संयुक्त3 कोडी सोडवणे2 टूल कॉलिंग2 सूचनांचे पालन2

16/16

क्रमांक	मॉडेल	कंपनी	उत्तर नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 272.5s
#75	Step 3.7 Flash high	Stepfun	2	4.0	$1.148	0/3	206.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.148 प्रतिसाद वेळ (सरासरी) 206.2s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 109.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 183.9s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.070 प्रतिसाद वेळ (सरासरी) 258.4s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 219.8s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.303 प्रतिसाद वेळ (सरासरी) 188.6s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 55.3s
#184	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 100.9s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.888 प्रतिसाद वेळ (सरासरी) 214.4s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.348 प्रतिसाद वेळ (सरासरी) 217.5s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.401 प्रतिसाद वेळ (सरासरी) 206.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.100 प्रतिसाद वेळ (सरासरी) 101.9s
#24	GLM 5 Turbo medium	Z.ai	1	8.2	$0.323	2/3	45.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 45.9s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.146 प्रतिसाद वेळ (सरासरी) 50.5s

मॉडेल फिल्टर करा

उत्तर नाही संख्या नुसार शीर्ष मॉडेल्स

उत्तर नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: उत्तर नाही

मॉडेल फिल्टर करा

उत्तर नाही संख्या नुसार शीर्ष मॉडेल्स

उत्तर नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स