कोडिंग x सूचनांचे पालन केले नाही क्रमवारी

AI BENCHY श्रेणी अपयशे

कोडिंग मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Gemini 3.5 Flash 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर230 API त्रुटी43 वेळ संपला23 उत्तर नाही18 सूचनांचे पालन केले नाही16 अतिरिक्त फॉरमॅटिंग12

श्रेणी

कोडी सोडवणे82 Samanya Buddhimatta74 अँटी-एआय युक्त्या31 कोडिंग16 सूचनांचे पालन15 टूल कॉलिंग6 डोमेन-विशिष्ट1 संयुक्त1

16/16

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#11	Gemini 3.5 Flash medium	Google	1	7.9	$0.582	2/3	12.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.582 प्रतिसाद वेळ (सरासरी) 12.6s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.053 प्रतिसाद वेळ (सरासरी) 30.1s
#69	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.29s
#70	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.034 प्रतिसाद वेळ (सरासरी) 13.4s
#84	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 2.75s
#127	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 82.6s
#73	GLM 5.2 none	Z.ai	1	3.7	$0.030	0/3	7.55s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 7.55s
#132	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 23.6s
#136	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 1.41s
#139	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 1.69s
#145	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.017	0/3	14.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 14.5s
#157	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 35.6s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 79.2s
#178	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.64s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 775ms

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडिंग: सूचनांचे पालन केले नाही

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स