ধাঁধা সমাধান x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Mistral Small 4 1

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

86/86

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 399ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 532ms
#201	Granite 4.1 8B none	IBM Granite	1	3.2	$0.007	0/3	608ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 608ms
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 621ms
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.046 প্রতিক্রিয়া সময় (গড়) 720ms
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 744ms
#193	Elephant Alpha none	Openrouter	1	4.2	$0.000	0/3	807ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 807ms
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 836ms
#195	Elephant Alpha medium	Openrouter	1	5.3	$0.000	1/3	868ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 868ms
#78	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 949ms
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 1.00s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 1.06s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.061 প্রতিক্রিয়া সময় (গড়) 1.07s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 1.20s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 1.21s

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল