Sadharon Buddhimotta x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন Sadharon Buddhimotta এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Grok 4.5 1

ব্যর্থতার কারণ

নির্দেশনা অনুসরণ করা হয়নি78 ভুল উত্তর59 API ত্রুটি12 টাইমআউট4

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

78/78

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#56	GPT-5.4 Mini medium	OpenAI	1	4.5	$0.756	0/1	3.72s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 3.72s
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 101.4s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.1	$0.661	0/1	2.56s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.661 প্রতিক্রিয়া সময় (গড়) 2.56s
#71	Qwen3.7 Plus none	Qwen	1	5.3	$0.106	0/1	1.33s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 1.33s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.777 প্রতিক্রিয়া সময় (গড়) 24.5s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.600 প্রতিক্রিয়া সময় (গড়) 69.7s
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 821ms
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.101 প্রতিক্রিয়া সময় (গড়) 36.7s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	4.7	$0.467	0/1	2.35s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.467 প্রতিক্রিয়া সময় (গড়) 2.35s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	5.5	$0.187	0/1	4.02s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 4.02s
#90	Qwen3.6 35B A3B medium	Qwen	1	4.4	$0.746	0/1	8.66s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.746 প্রতিক্রিয়া সময় (গড়) 8.66s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 39.5s
#101	MiMo-V2.5 medium	Xiaomi	1	5.4	$0.082	0/1	5.37s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.082 প্রতিক্রিয়া সময় (গড়) 5.37s
#103	Qwen3.5-27B none	Qwen	1	5.0	$0.090	0/1	2.51s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 2.51s

←

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

Sadharon Buddhimotta: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল