ধাঁধা সমাধান x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ধাঁধা সমাধান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

204

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.5-Flash 3

ব্যর্থতার কারণ

ভুল উত্তর204 নির্দেশনা অনুসরণ করা হয়নি90 API ত্রুটি12 অতিরিক্ত ফরম্যাটিং8 টাইমআউট5 কোন উত্তর নেই3

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

145/145

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#42	GLM 5.2 medium	Z.ai	1	8.2	$0.187	2/3	13.1s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 13.1s
#43	GPT-5.6 Terra medium	OpenAI	1	8.4	$0.676	2/3	3.78s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.676 প্রতিক্রিয়া সময় (গড়) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	2/3	4.71s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $3.059 প্রতিক্রিয়া সময় (গড়) 4.71s
#48	GPT-5.6 Luna high	OpenAI	1	7.6	$1.017	2/3	14.6s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.017 প্রতিক্রিয়া সময় (গড়) 14.6s
#50	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 56.8s
#51	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.286 প্রতিক্রিয়া সময় (গড়) 49.9s
#52	Grok Build 0.1 medium	X AI	1	7.7	$1.097	2/3	18.3s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.097 প্রতিক্রিয়া সময় (গড়) 18.3s
#54	GPT-5.6 Luna medium	OpenAI	1	7.8	$0.352	2/3	4.04s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.352 প্রতিক্রিয়া সময় (গড়) 4.04s
#56	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.740	1/3	41.0s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.740 প্রতিক্রিয়া সময় (গড়) 41.0s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.7	$0.115	2/3	5.30s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.6	$0.117	2/3	1.95s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 1.95s
#72	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.036 প্রতিক্রিয়া সময় (গড়) 25.1s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	1	8.2	$0.482	2/3	3.38s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.482 প্রতিক্রিয়া সময় (গড়) 3.38s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	8.2	$0.317	2/3	17.7s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.317 প্রতিক্রিয়া সময় (গড়) 17.7s
#75	Qwen3.7 Plus none	Qwen	1	7.7	$0.106	2/3	1.71s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 1.71s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ধাঁধা সমাধান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল