নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Nemotron 3 Nano Omni 30b A3b Reasoning 2

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
মোট টেস্ট 18 ভুল টেস্ট 10 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 10.3s
#158	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 10.7s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.002 প্রতিক্রিয়া সময় (গড়) 10.7s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 10.8s
#27	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 11.5s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 11.6s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
মোট টেস্ট 21 ভুল টেস্ট 13 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 11.9s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.1s
#26	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.922 প্রতিক্রিয়া সময় (গড়) 12.5s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.7s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 12.9s
#205	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 12.9s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 13.2s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 13.6s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
মোট টেস্ট 19 ভুল টেস্ট 10 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 14.7s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল