নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

মোট ব্যর্থতা

245

সবচেয়ে বেশি প্রভাবিত মডেল

Granite 4.1 8B 4

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে18 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#200	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 2.76s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
মোট টেস্ট 19 ভুল টেস্ট 15 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 17.1s
#150	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.044	5/22	36.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 36.8s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.55s
#165	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 1.20s
#166	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 9.12s
#167	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 10.8s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 4.62s
#172	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 41.3s
#174	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 1.99s
#177	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 5.97s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 68.3s
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
মোট টেস্ট 21 ভুল টেস্ট 16 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.22s
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
মোট টেস্ট 19 ভুল টেস্ট 14 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 806ms
#136	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 1.53s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল