কোডিং x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন কোডিং এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Granite 4.1 8B 1

ব্যর্থতার কারণ

ভুল উত্তর230 API ত্রুটি43 টাইমআউট23 কোন উত্তর নেই18 নির্দেশনা অনুসরণ করা হয়নি16 অতিরিক্ত ফরম্যাটিং12

বিভাগ

ধাঁধা সমাধান82 Sadharon Buddhimotta74 অ্যান্টি-এআই কৌশল31 কোডিং16 নির্দেশনা অনুসরণ15 টুল কলিং6 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

16/16

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 775ms
#136	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 1.41s
#139	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 1.69s
#178	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 2.64s
#84	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 2.75s
#69	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.539 প্রতিক্রিয়া সময় (গড়) 3.29s
#73	GLM 5.2 none	Z.ai	1	3.7	$0.030	0/3	7.55s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 7.55s
#11	Gemini 3.5 Flash medium	Google	1	7.9	$0.582	2/3	12.6s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.582 প্রতিক্রিয়া সময় (গড়) 12.6s
#70	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.034 প্রতিক্রিয়া সময় (গড়) 13.4s
#145	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.017	0/3	14.5s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 14.5s
#132	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.069 প্রতিক্রিয়া সময় (গড়) 23.6s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $2.053 প্রতিক্রিয়া সময় (গড়) 30.1s
#157	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 35.6s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 79.2s
#127	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.078 প্রতিক্রিয়া সময় (গড়) 82.6s

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

কোডিং: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল