নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↑.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

LFM2-24B-A2B 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 47.4s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.1s
#72	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $1.036 প্রতিক্রিয়া সময় (গড়) 110.0s
#70	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 4.91s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 4.27s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 4.61s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.661 প্রতিক্রিয়া সময় (গড়) 8.12s
#62	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 111.9s
#60	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 25.9s
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.571 প্রতিক্রিয়া সময় (গড়) 6.88s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 13.2s
#56	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.740	12/22	84.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.740 প্রতিক্রিয়া সময় (গড়) 84.2s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
মোট টেস্ট 21 ভুল টেস্ট 7 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 23.0s
#51	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.286 প্রতিক্রিয়া সময় (গড়) 75.0s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 79.1s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল