অ্যান্টি-এআই কৌশল x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

GPT-5 Mini 1

ব্যর্থতার কারণ

ভুল উত্তর250 নির্দেশনা অনুসরণ করা হয়নি30 অতিরিক্ত ফরম্যাটিং18 API ত্রুটি12 টাইমআউট4 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান82 Sadharon Buddhimotta72 অ্যান্টি-এআই কৌশল30 কোডিং16 নির্দেশনা অনুসরণ12 টুল কলিং6 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

29/29

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.159 প্রতিক্রিয়া সময় (গড়) 13.9s
#20	Step 3.7 Flash medium	Stepfun	1	8.7	$0.376	3/4	9.65s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.376 প্রতিক্রিয়া সময় (গড়) 9.65s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 7.81s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.068	3/4	2.33s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 2.33s
#34	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.071	3/4	2.39s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.071 প্রতিক্রিয়া সময় (গড়) 2.39s
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.889 প্রতিক্রিয়া সময় (গড়) 11.6s
#40	MiniMax M3 medium	Minimax	1	5.5	$0.131	1/4	14.9s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.131 প্রতিক্রিয়া সময় (গড়) 14.9s
#44	Mercury 2 medium	Inception	1	6.9	$0.058	2/4	1.12s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.058 প্রতিক্রিয়া সময় (গড়) 1.12s
#45	GPT-5.3 Chat none	OpenAI	1	6.7	$0.433	2/4	3.86s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.433 প্রতিক্রিয়া সময় (গড়) 3.86s
#56	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 10.8s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.034	0/4	4.02s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.034 প্রতিক্রিয়া সময় (গড়) 4.02s
#78	gpt-oss-120b medium	OpenAI	1	6.7	$0.013	2/4	10.2s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 10.2s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.018	2/4	1.04s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 1.04s
#110	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.78s
#114	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 1.63s

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল