AI BENCHY বিভাগীয় ব্যর্থতা

অ্যান্টি-এআই কৌশল

নির্দেশনা অনুসরণ করা হয়নি

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

সম্পর্কিত ব্যর্থতার কারণ

সম্পর্কিত বিভাগ

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#12	Gemini 3.1 Flash Lite Preview medium	Google	1	9.0	2/3	2.53s
#19	GPT-5.3 Chat none	OpenAI	1	7.3	2/3	4.72s
#22	Gemini 3.1 Flash Lite Preview none	Google	1	6.0	1/3	1.16s
#27	GPT-5.2 medium	OpenAI	1	7.0	2/3	14.3s
#32	GPT-5 Mini medium	OpenAI	1	7.0	2/3	16.5s
#36	Mercury 2 medium	Inception	1	7.3	2/3	1.30s
#39	gpt-oss-120b medium	OpenAI	1	7.0	2/3	19.8s
#43	MiniMax M2.5 medium	Minimax	1	9.3	2/3	32.4s
#48	Qwen3 Coder Next none	Qwen	1	2.3	0/3	4.39s
#50	Qwen3 Coder Next medium	Qwen	1	1.3	0/3	15.3s
#52	GLM 4.7 Flash medium	Z.ai	1	4.0	1/3	27.1s
#53	Grok 4.1 Fast none	X AI	1	1.3	0/3	1.73s

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল