কোডিং x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন কোডিং এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

230

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.6 Flash 3

ব্যর্থতার কারণ

ভুল উত্তর230 API ত্রুটি43 টাইমআউট23 কোন উত্তর নেই18 নির্দেশনা অনুসরণ করা হয়নি16 অতিরিক্ত ফরম্যাটিং12

বিভাগ

ডোমেইন-নির্দিষ্ট367 অ্যান্টি-এআই কৌশল270 কোডিং230 ধাঁধা সমাধান172 সাধারণ জ্ঞান149 সমন্বিত58 নির্দেশনা অনুসরণ56 Sadharon Buddhimotta49 ডেটা পার্সিং ও নিষ্কাশন36 টুল কলিং3

134/134

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.288 প্রতিক্রিয়া সময় (গড়) 42.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.075 প্রতিক্রিয়া সময় (গড়) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.027 প্রতিক্রিয়া সময় (গড়) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 320.4s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.287 প্রতিক্রিয়া সময় (গড়) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 17.1s
#140	GLM 5 Turbo none	Z.ai	3	3.9	$0.047	0/3	2.41s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 2.41s
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 623ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 980ms
#144	Qwen3.5-122B-A10B none	Qwen	3	3.7	$0.020	0/3	2.77s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.020 প্রতিক্রিয়া সময় (গড়) 2.77s
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 901ms
#149	Qwen3 Coder Next none	Qwen	3	4.6	$0.009	0/3	2.22s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 2.22s
#150	North Mini Code none	Cohere	3	3.9	$0.000	0/3	22.0s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 22.0s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

কোডিং: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল