নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

মোট ব্যর্থতা

245

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.5 Flash 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে18 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#104	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.646 প্রতিক্রিয়া সময় (গড়) 16.7s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
মোট টেস্ট 21 ভুল টেস্ট 9 মোট খরচ $0.333 প্রতিক্রিয়া সময় (গড়) 22.2s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
মোট টেস্ট 21 ভুল টেস্ট 9 মোট খরচ $0.043 প্রতিক্রিয়া সময় (গড়) 20.1s
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
মোট টেস্ট 18 ভুল টেস্ট 8 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 62.0s
#26	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.237 প্রতিক্রিয়া সময় (গড়) 27.6s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $1.694 প্রতিক্রিয়া সময় (গড়) 31.5s
#47	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.286 প্রতিক্রিয়া সময় (গড়) 75.0s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.751	12/22	84.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.751 প্রতিক্রিয়া সময় (গড়) 84.2s
#53	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 13.2s
#56	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 25.9s
#63	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.661 প্রতিক্রিয়া সময় (গড়) 8.12s
#68	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $1.036 প্রতিক্রিয়া সময় (গড়) 110.0s
#75	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.777 প্রতিক্রিয়া সময় (গড়) 29.5s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 33.9s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.738 প্রতিক্রিয়া সময় (গড়) 44.7s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল