ধাঁধা সমাধান x নির্দেশনা অনুসরণ করা হয়নি র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.1 Flash Lite 2

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ধাঁধা সমাধান90 Sadharon Buddhimotta78 অ্যান্টি-এআই কৌশল33 নির্দেশনা অনুসরণ18 কোডিং16 টুল কলিং8 ডোমেইন-নির্দিষ্ট1 সমন্বিত1

86/86

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#139	GPT-5.4 none	OpenAI	1	5.6	$0.397	1/3	1.44s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.397 প্রতিক্রিয়া সময় (গড়) 1.44s
#140	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.050	0/3	3.15s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.050 প্রতিক্রিয়া সময় (গড়) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 1.00s
#145	GLM 5V Turbo none	Z.ai	1	5.3	$0.052	1/3	2.40s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 2.40s
#146	Owl Alpha medium	Openrouter	1	5.3	$0.000	1/3	3.40s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 3.40s
#147	Mimo V2 PRO none	Xiaomi	1	6.0	$0.045	1/3	1.61s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 1.61s
#148	Owl Alpha none	Openrouter	1	5.4	$0.000	1/3	4.18s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 4.18s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 23.7s
#152	Qwen3.6 27B none	Qwen	1	5.3	$0.087	1/3	5.15s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 5.15s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.7	$0.068	1/3	1.30s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 1.30s
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 744ms
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	3.1	$0.041	0/3	1.57s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 1.57s
#162	Ling-2.6-1T none	Inclusionai	1	3.1	$0.016	0/3	5.36s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 5.36s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $2.310 প্রতিক্রিয়া সময় (গড়) 46.7s
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 399ms

←

1 2 3 4 5 6

→

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: নির্দেশনা অনুসরণ করা হয়নি

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল