অ্যান্টি-এআই কৌশল x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Laguna Xs.2 1

ব্যর্থতার কারণ

ভুল উত্তর250 নির্দেশনা অনুসরণ করা হয়নি30 অতিরিক্ত ফরম্যাটিং18 API ত্রুটি12 টাইমআউট4 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান82 Sadharon Buddhimotta72 অ্যান্টি-এআই কৌশল30 কোডিং16 নির্দেশনা অনুসরণ12 টুল কলিং6 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

29/29

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#162	Laguna Xs.2 none	Poolside	1	3.0	$0.000	0/4	534ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 534ms
#163	Granite 4.1 8B none	IBM Granite	1	4.9	$0.003	1/4	844ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 844ms
#152	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 963ms
#84	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.018	2/4	1.04s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 1.04s
#161	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.07s
#44	Mercury 2 medium	Inception	1	6.9	$0.058	2/4	1.12s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.058 প্রতিক্রিয়া সময় (গড়) 1.12s
#114	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 1.63s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.068	3/4	2.33s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 2.33s
#34	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.071	3/4	2.39s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.071 প্রতিক্রিয়া সময় (গড়) 2.39s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.017	0/4	2.67s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 2.67s
#110	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.78s
#130	Qwen3 Coder Next none	Qwen	1	3.6	$0.009	0/4	3.31s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 3.31s
#45	GPT-5.3 Chat none	OpenAI	1	6.7	$0.433	2/4	3.86s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.433 প্রতিক্রিয়া সময় (গড়) 3.86s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.034	0/4	4.02s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.034 প্রতিক্রিয়া সময় (গড়) 4.02s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 7.81s

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল