নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

242

সবচেয়ে বেশি প্রভাবিত মডেল

MiniMax M2.7 5

বিভাগ

ধাঁধা সমাধান বিভাগে88 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে32 নির্দেশনা অনুসরণ বিভাগে18 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

138/138

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#168	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 41.3s
#150	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 4.12s
#181	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
মোট টেস্ট 19 ভুল টেস্ট 10 মোট খরচ $0.069 প্রতিক্রিয়া সময় (গড়) 23.8s
#195	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 12.9s
#197	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
মোট টেস্ট 22 ভুল টেস্ট 20 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 1.45s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.951 প্রতিক্রিয়া সময় (গড়) 22.6s
#26	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.237 প্রতিক্রিয়া সময় (গড়) 27.6s
#56	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 25.9s
#77	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 2.72s
#116	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 1.86s
#117	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 21.9s
#126	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
মোট টেস্ট 21 ভুল টেস্ট 10 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 174.2s
#132	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 1.53s
#134	Kimi K2.6 none	Moonshot AI	3	5.8	$0.233	7/22	19.6s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.233 প্রতিক্রিয়া সময় (গড়) 19.6s
#136	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.066	8/22	52.0s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.066 প্রতিক্রিয়া সময় (গড়) 52.0s

1 2 10

→

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল