কোডিং x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন কোডিং এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

230

সবচেয়ে বেশি প্রভাবিত মডেল

North Mini Code 3

ব্যর্থতার কারণ

ভুল উত্তর230 API ত্রুটি43 টাইমআউট23 কোন উত্তর নেই18 নির্দেশনা অনুসরণ করা হয়নি16 অতিরিক্ত ফরম্যাটিং12

বিভাগ

ডোমেইন-নির্দিষ্ট367 অ্যান্টি-এআই কৌশল270 কোডিং230 ধাঁধা সমাধান172 সাধারণ জ্ঞান149 সমন্বিত58 নির্দেশনা অনুসরণ56 Sadharon Buddhimotta49 ডেটা পার্সিং ও নিষ্কাশন36 টুল কলিং3

134/134

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 320.4s
#60	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.044	1/3	248.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 248.7s
#62	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 220.5s
#75	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $1.148 প্রতিক্রিয়া সময় (গড়) 206.2s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.303 প্রতিক্রিয়া সময় (গড়) 188.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 183.9s
#33	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.310 প্রতিক্রিয়া সময় (গড়) 180.7s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.536 প্রতিক্রিয়া সময় (গড়) 160.7s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.175 প্রতিক্রিয়া সময় (গড়) 156.7s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.696 প্রতিক্রিয়া সময় (গড়) 155.7s
#36	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.294 প্রতিক্রিয়া সময় (গড়) 153.1s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.960 প্রতিক্রিয়া সময় (গড়) 146.5s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.317 প্রতিক্রিয়া সময় (গড়) 125.3s
#44	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.588 প্রতিক্রিয়া সময় (গড়) 114.5s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.609 প্রতিক্রিয়া সময় (গড়) 109.9s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

কোডিং: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল