ধাঁধা সমাধান x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

মোট ব্যর্থতা

201

সবচেয়ে বেশি প্রভাবিত মডেল

GPT-5.4 Nano 2

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

142/142

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#53	GPT-5.4 Nano medium	OpenAI	2	4.1	$0.138	0/3	3.79s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 3.79s
#91	LongCat 2.0 low	Meituan	2	3.1	$0.391	0/3	8.15s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 8.15s
#97	LongCat 2.0 high	Meituan	2	3.1	$0.469	0/3	9.18s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 9.18s
#111	LongCat 2.0 none	Meituan	2	4.0	$0.044	0/3	2.74s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 2.74s
#124	Qwen3.6 Flash none	Qwen	2	3.5	$0.062	0/3	1.21s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 1.21s
#125	Qwen3.5-Flash none	Qwen	3	3.1	$0.073	0/3	10.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 10.9s
#127	Qwen3.5-35B-A3B none	Qwen	2	3.7	$0.106	0/3	1.35s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 1.35s
#137	North Mini Code medium	Cohere	3	3.3	$0.000	0/3	19.7s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 19.7s
#138	Kimi K2.6 none	Moonshot AI	2	3.1	$0.184	0/3	1.40s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	2	3.0	$0.050	0/3	3.15s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.050 প্রতিক্রিয়া সময় (গড়) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	2	3.8	$0.247	0/3	1.00s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 1.00s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	3.5	$0.077	0/3	2.47s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.077 প্রতিক্রিয়া সময় (গড়) 2.47s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.6	$0.048	0/3	1.87s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.048 প্রতিক্রিয়া সময় (গড়) 1.87s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 23.7s
#155	Kimi K2.5 none	Moonshot AI	3	3.0	$0.127	0/3	4.04s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.127 প্রতিক্রিয়া সময় (গড়) 4.04s

1 2 10

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল