कोडिंग x सूचनांचे पालन केले नाही क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

GLM 5.2 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला25 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

कोडी सोडवणे83 Samanya Buddhimatta74 अँटी-एआय युक्त्या31 कोडिंग16 सूचनांचे पालन15 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

16/16

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#74	GLM 5.2 none	Z.ai	1	3.7	$0.042	0/3	7.55s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 7.55s
#133	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 23.6s
#137	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 1.41s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 1.69s
#146	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.016	0/3	14.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 14.5s
#158	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 35.6s
#160	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 79.2s
#179	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.64s
#183	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 775ms
#185	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 100.9s
#49	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.053 प्रतिसाद वेळ (सरासरी) 30.1s
#70	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.29s
#71	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.034 प्रतिसाद वेळ (सरासरी) 13.4s
#85	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 2.75s
#128	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 82.6s

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: सूचनांचे पालन केले नाही

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स