অ্যান্টি-এআই কৌশল x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Step 3.7 Flash 1

ব্যর্থতার কারণ

ভুল উত্তর250 নির্দেশনা অনুসরণ করা হয়নি30 অতিরিক্ত ফরম্যাটিং18 API ত্রুটি12 টাইমআউট4 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান82 Sadharon Buddhimotta72 অ্যান্টি-এআই কৌশল30 কোডিং16 নির্দেশনা অনুসরণ12 টুল কলিং6 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

29/29

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#20	Step 3.7 Flash medium	Stepfun	1	8.7	$0.376	3/4	9.65s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.376 প্রতিক্রিয়া সময় (গড়) 9.65s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.068	3/4	2.33s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 2.33s
#34	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.071	3/4	2.39s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.071 প্রতিক্রিয়া সময় (গড়) 2.39s
#144	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 43.3s
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.159 প্রতিক্রিয়া সময় (গড়) 13.9s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 7.81s
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.889 প্রতিক্রিয়া সময় (গড়) 11.6s
#44	Mercury 2 medium	Inception	1	6.9	$0.058	2/4	1.12s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.058 প্রতিক্রিয়া সময় (গড়) 1.12s
#45	GPT-5.3 Chat none	OpenAI	1	6.7	$0.433	2/4	3.86s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.433 প্রতিক্রিয়া সময় (গড়) 3.86s
#56	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 10.8s
#78	gpt-oss-120b medium	OpenAI	1	6.7	$0.013	2/4	10.2s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 10.2s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.018	2/4	1.04s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 1.04s
#127	MiniMax M2.7 medium	Minimax	1	7.9	$0.104	2/4	40.3s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.104 প্রতিক্রিয়া সময় (গড়) 40.3s
#143	Ling-2.6-flash none	Inclusionai	1	6.8	$0.001	2/4	11.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 11.8s
#146	MiniMax M2.5 medium	Minimax	1	7.9	$0.303	2/4	20.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.303 প্রতিক্রিয়া সময় (গড়) 20.8s

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল