অ্যান্টি-এআই কৌশল x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: মোট খরচ ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Owl Alpha 1

ব্যর্থতার কারণ

ভুল উত্তর250 নির্দেশনা অনুসরণ করা হয়নি30 অতিরিক্ত ফরম্যাটিং18 API ত্রুটি12 টাইমআউট4 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান82 Sadharon Buddhimotta72 অ্যান্টি-এআই কৌশল30 কোডিং16 নির্দেশনা অনুসরণ12 টুল কলিং6 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

29/29

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#110	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.78s
#152	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 963ms
#162	Laguna Xs.2 none	Poolside	1	3.0	$0.000	0/4	534ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 534ms
#143	Ling-2.6-flash none	Inclusionai	1	6.8	$0.001	2/4	11.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 11.8s
#158	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 11.1s
#163	Granite 4.1 8B none	IBM Granite	1	4.9	$0.003	1/4	844ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 844ms
#161	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.07s
#148	Qwen3 Coder Next medium	Qwen	1	3.5	$0.008	0/4	8.64s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 8.64s
#130	Qwen3 Coder Next none	Qwen	1	3.6	$0.009	0/4	3.31s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 3.31s
#164	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 32.8s
#78	gpt-oss-120b medium	OpenAI	1	6.7	$0.013	2/4	10.2s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 10.2s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.017	0/4	2.67s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 2.67s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.018	2/4	1.04s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 1.04s
#114	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 1.63s
#144	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 43.3s

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল