অ্যান্টি-এআই কৌশল x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Ring-2.6-1T 1

ব্যর্থতার কারণ

ভুল উত্তর250 নির্দেশনা অনুসরণ করা হয়নি30 অতিরিক্ত ফরম্যাটিং18 API ত্রুটি12 টাইমআউট4 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান82 Sadharon Buddhimotta72 অ্যান্টি-এআই কৌশল30 কোডিং16 নির্দেশনা অনুসরণ12 টুল কলিং6 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

29/29

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#144	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 43.3s
#127	MiniMax M2.7 medium	Minimax	1	7.9	$0.104	2/4	40.3s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.104 প্রতিক্রিয়া সময় (গড়) 40.3s
#164	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 32.8s
#146	MiniMax M2.5 medium	Minimax	1	7.9	$0.303	2/4	20.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.303 প্রতিক্রিয়া সময় (গড়) 20.8s
#157	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.054	1/4	15.0s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 15.0s
#40	MiniMax M3 medium	Minimax	1	5.5	$0.131	1/4	14.9s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.131 প্রতিক্রিয়া সময় (গড়) 14.9s
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.159 প্রতিক্রিয়া সময় (গড়) 13.9s
#143	Ling-2.6-flash none	Inclusionai	1	6.8	$0.001	2/4	11.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 11.8s
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.889 প্রতিক্রিয়া সময় (গড়) 11.6s
#158	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 11.1s
#56	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 10.8s
#78	gpt-oss-120b medium	OpenAI	1	6.7	$0.013	2/4	10.2s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 10.2s
#20	Step 3.7 Flash medium	Stepfun	1	8.7	$0.376	3/4	9.65s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.376 প্রতিক্রিয়া সময় (গড়) 9.65s
#148	Qwen3 Coder Next medium	Qwen	1	3.5	$0.008	0/4	8.64s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 8.64s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 7.81s

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল