কোডিং x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন কোডিং এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

মোট ব্যর্থতা

230

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.6 Flash 3

ব্যর্থতার কারণ

ভুল উত্তর230 API ত্রুটি43 টাইমআউট23 কোন উত্তর নেই18 নির্দেশনা অনুসরণ করা হয়নি16 অতিরিক্ত ফরম্যাটিং12

বিভাগ

ডোমেইন-নির্দিষ্ট367 অ্যান্টি-এআই কৌশল270 কোডিং230 ধাঁধা সমাধান172 সাধারণ জ্ঞান149 সমন্বিত58 নির্দেশনা অনুসরণ56 Sadharon Buddhimotta49 ডেটা পার্সিং ও নিষ্কাশন36 টুল কলিং3

134/134

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.288 প্রতিক্রিয়া সময় (গড়) 42.9s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 7.55s
#75	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $1.148 প্রতিক্রিয়া সময় (গড়) 206.2s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.080 প্রতিক্রিয়া সময় (গড়) 58.9s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 183.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.075 প্রতিক্রিয়া সময় (গড়) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.027 প্রতিক্রিয়া সময় (গড়) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 320.4s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 2.75s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.287 প্রতিক্রিয়া সময় (গড়) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 17.1s
#136	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 1.41s
#138	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 4.16s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

কোডিং: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল