নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↓.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.5 Flash 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#118	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 6.04s
#119	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
মোট টেস্ট 21 ভুল টেস্ট 9 মোট খরচ $0.043 প্রতিক্রিয়া সময় (গড়) 20.1s
#120	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.139 প্রতিক্রিয়া সময় (গড়) 84.8s
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 5.34s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 1.86s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.046 প্রতিক্রিয়া সময় (গড়) 1.75s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 5.15s
#130	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 3.74s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 13.6s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.7s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 54.9s
#135	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 3.87s
#136	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
মোট টেস্ট 21 ভুল টেস্ট 10 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 174.2s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল