ধাঁধা সমাধান x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

204

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.5-Flash 3

ব্যর্থতার কারণ

ভুল উত্তর204 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

145/145

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#206	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	1.86s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 1.86s
#207	Granite 4.1 8B none	IBM Granite	2	3.2	$0.007	0/3	608ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 608ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2	2.9	$0.000	0/3	1.40s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.40s
#216	LFM2-24B-A2B none	Liquid	2	3.8	$0.001	0/3	1.78s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 1.78s
#5	GPT-5.6 Sol low	OpenAI	1	8.2	$0.971	2/3	3.44s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.971 প্রতিক্রিয়া সময় (গড়) 3.44s
#7	GPT-5.6 Sol medium	OpenAI	1	8.2	$1.316	2/3	2.98s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.316 প্রতিক্রিয়া সময় (গড়) 2.98s
#12	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	2.38s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.642 প্রতিক্রিয়া সময় (গড়) 2.38s
#26	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	2.98s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.922 প্রতিক্রিয়া সময় (গড়) 2.98s
#28	Gemini 2.5 Flash medium	Google	1	7.7	$0.643	2/3	3.18s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.643 প্রতিক্রিয়া সময় (গড়) 3.18s
#29	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.237 প্রতিক্রিয়া সময় (গড়) 15.2s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.2	$0.584	2/3	1.85s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.584 প্রতিক্রিয়া সময় (গড়) 1.85s
#32	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.006 প্রতিক্রিয়া সময় (গড়) 10.7s
#34	GPT-5.2 Chat none	OpenAI	1	7.7	$0.604	2/3	4.10s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.604 প্রতিক্রিয়া সময় (গড়) 4.10s
#35	GLM 5.2 high	Z.ai	1	6.0	$0.817	1/3	33.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.817 প্রতিক্রিয়া সময় (গড়) 33.7s
#38	GPT-5.6 Terra high	OpenAI	1	7.7	$1.055	2/3	5.45s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.055 প্রতিক্রিয়া সময় (গড়) 5.45s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল