নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↓.

দেখানো মডেল

মোট ব্যর্থতা

245

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.5 Flash 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে18 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 48.5s
#37	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.405 প্রতিক্রিয়া সময় (গড়) 43.1s
#42	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
মোট টেস্ট 21 ভুল টেস্ট 6 মোট খরচ $0.307 প্রতিক্রিয়া সময় (গড়) 33.5s
#43	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $3.059 প্রতিক্রিয়া সময় (গড়) 34.3s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 49.7s
#46	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 79.1s
#47	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.286 প্রতিক্রিয়া সময় (গড়) 75.0s
#49	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
মোট টেস্ট 21 ভুল টেস্ট 7 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 23.0s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.751	12/22	84.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.751 প্রতিক্রিয়া সময় (গড়) 84.2s
#53	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 13.2s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.571 প্রতিক্রিয়া সময় (গড়) 6.88s
#56	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 25.9s
#58	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 111.9s
#63	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.661 প্রতিক্রিয়া সময় (গড়) 8.12s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 4.61s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল