ধাঁধা সমাধান x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

201

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.5-Flash 3

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

142/142

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#67	Step 3.7 Flash low	Stepfun	2	5.5	$0.454	1/3	1.84s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.454 প্রতিক্রিয়া সময় (গড়) 1.84s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	2	5.9	$0.467	1/3	3.20s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.467 প্রতিক্রিয়া সময় (গড়) 3.20s
#86	Step 3.7 Flash high	Stepfun	2	5.3	$1.207	1/3	10.2s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.207 প্রতিক্রিয়া সময় (গড়) 10.2s
#91	LongCat 2.0 low	Meituan	2	3.1	$0.391	0/3	8.15s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 8.15s
#97	LongCat 2.0 high	Meituan	2	3.1	$0.469	0/3	9.18s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 9.18s
#102	Laguna XS 2.1 medium	Poolside	2	5.3	$0.068	1/3	3.43s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 3.43s
#111	LongCat 2.0 none	Meituan	2	4.0	$0.044	0/3	2.74s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 2.74s
#116	Seed-2.0-Lite none	Bytedance Seed	2	5.3	$0.066	1/3	2.78s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.066 প্রতিক্রিয়া সময় (গড়) 2.78s
#124	Qwen3.6 Flash none	Qwen	2	3.5	$0.062	0/3	1.21s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 1.21s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.7	$0.122	1/3	1.97s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 1.97s
#127	Qwen3.5-35B-A3B none	Qwen	2	3.7	$0.106	0/3	1.35s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 1.35s
#132	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	1.23s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.349 প্রতিক্রিয়া সময় (গড়) 1.23s
#138	Kimi K2.6 none	Moonshot AI	2	3.1	$0.184	0/3	1.40s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	2	3.0	$0.050	0/3	3.15s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.050 প্রতিক্রিয়া সময় (গড়) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	2	3.8	$0.247	0/3	1.00s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 1.00s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল