ধাঁধা সমাধান x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

204

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.5-Flash 3

ব্যর্থতার কারণ

ভুল উত্তর204 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

145/145

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#101	GLM 5.2 none	Z.ai	1	7.7	$0.128	2/3	3.31s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.128 প্রতিক্রিয়া সময় (গড়) 3.31s
#104	Gemini 3.5 Flash-Lite medium	Google	1	8.4	$0.369	2/3	1.70s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.369 প্রতিক্রিয়া সময় (গড়) 1.70s
#105	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 61.1s
#109	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 1.38s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	1	7.7	$0.073	2/3	2.71s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 2.71s
#114	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 20.7s
#118	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 3.22s
#119	MiMo-V2-Flash medium	Xiaomi	1	7.7	$0.043	2/3	3.87s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.043 প্রতিক্রিয়া সময় (গড়) 3.87s
#121	Gemma 4 31B none	Google	1	6.5	$0.021	1/3	4.23s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 4.23s
#123	GPT-5.6 Luna low	OpenAI	1	7.6	$0.249	2/3	3.59s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 3.59s
#124	Gemini 2.5 Flash none	Google	1	7.7	$0.017	2/3	604ms
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 604ms
#127	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 21.7s
#128	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.046 প্রতিক্রিয়া সময় (গড়) 720ms
#129	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 2.97s
#134	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 20.6s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল