নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.5 Flash 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.571 প্রতিক্রিয়া সময় (গড়) 6.88s
#62	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 111.9s
#72	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $1.036 প্রতিক্রিয়া সময় (গড়) 110.0s
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 47.4s
#79	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.777 প্রতিক্রিয়া সময় (গড়) 29.5s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.600 প্রতিক্রিয়া সময় (গড়) 99.0s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 11.6s
#88	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 33.9s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 148.7s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 4.76s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 1.58s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 68.7s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 5.15s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 13.6s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.7s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল