নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Step 3.5 Flash 3

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 19.2s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 18.3s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
মোট টেস্ট 19 ভুল টেস্ট 15 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 17.1s
#16	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.920 প্রতিক্রিয়া সময় (গড়) 17.0s
#110	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.646 প্রতিক্রিয়া সময় (গড়) 16.7s
#106	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
মোট টেস্ট 21 ভুল টেস্ট 7 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 16.3s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
মোট টেস্ট 19 ভুল টেস্ট 10 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 14.7s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 13.6s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 13.2s
#205	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 12.9s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 12.9s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.7s
#26	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.922 প্রতিক্রিয়া সময় (গড়) 12.5s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.1s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
মোট টেস্ট 21 ভুল টেস্ট 13 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 11.9s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল