ধাঁধা সমাধান x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

201

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.5-Flash 3

ব্যর্থতার কারণ

ভুল উত্তর201 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

142/142

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	3.1	$0.041	0/3	1.57s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 1.57s
#162	Ling-2.6-1T none	Inclusionai	2	3.1	$0.016	0/3	5.36s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 5.36s
#165	Mistral Small 4 none	Mistral	2	3.1	$0.022	0/3	399ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 399ms
#167	Mistral Small 4 medium	Mistral	2	3.4	$0.096	0/3	2.17s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 2.17s
#169	Qwen3.5-9B none	Qwen	2	3.2	$0.021	0/3	621ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 621ms
#174	GPT-4o-mini none	OpenAI	2	3.5	$0.010	0/3	1.21s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 1.21s
#178	Ling-2.6-flash none	Inclusionai	2	2.9	$0.002	0/3	6.51s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.002 প্রতিক্রিয়া সময় (গড়) 6.51s
#183	Trinity Large Preview none	Arcee AI	2	3.6	$0.008	0/3	1.97s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.97s
#187	Qwen3 Coder Next medium	Qwen	2	3.0	$0.032	0/3	1.25s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 1.25s
#188	Cobuddy medium	Baidu	2	3.6	$0.000	0/3	12.8s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 12.8s
#192	Laguna M.1 none	Poolside	2	3.0	$0.009	0/3	891ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 891ms
#193	Elephant Alpha none	Openrouter	2	4.2	$0.000	0/3	807ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 807ms
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/3	12.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.166 প্রতিক্রিয়া সময় (গড়) 12.9s
#197	Grok 4.20 none	X AI	2	5.3	$0.057	1/3	473ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 473ms
#199	Hy3 preview none	Tencent	2	3.1	$0.003	0/3	4.56s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 4.56s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল