নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

মোট ব্যর্থতা

245

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.5 Flash 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে18 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.515 প্রতিক্রিয়া সময় (গড়) 26.4s
#30	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.604 প্রতিক্রিয়া সময় (গড়) 7.65s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.970 প্রতিক্রিয়া সময় (গড়) 62.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 48.5s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.300 প্রতিক্রিয়া সময় (গড়) 2.65s
#24	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 11.5s
#43	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $3.059 প্রতিক্রিয়া সময় (গড়) 34.3s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 49.7s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.571 প্রতিক্রিয়া সময় (গড়) 6.88s
#58	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 111.9s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 4.61s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 4.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 4.91s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 47.4s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.746 প্রতিক্রিয়া সময় (গড়) 58.1s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল