নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Granite 4.1 8B 4

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 5.34s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 1.86s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 5.15s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
মোট টেস্ট 19 ভুল টেস্ট 10 মোট খরচ $0.069 প্রতিক্রিয়া সময় (গড়) 23.8s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
মোট টেস্ট 19 ভুল টেস্ট 10 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 14.7s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
মোট টেস্ট 21 ভুল টেস্ট 11 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 41.2s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.078 প্রতিক্রিয়া সময় (গড়) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.101 প্রতিক্রিয়া সময় (গড়) 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.467 প্রতিক্রিয়া সময় (গড়) 24.0s
#87	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.524 প্রতিক্রিয়া সময় (গড়) 2.16s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 68.7s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
মোট টেস্ট 12 ভুল টেস্ট 6 মোট খরচ $0.020 প্রতিক্রিয়া সময় (গড়) 39.0s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
মোট টেস্ট 21 ভুল টেস্ট 10 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 23.1s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল