কোডিং x কোন উত্তর নেই র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন কোডিং এ কোন AI মডেলগুলোর কোন উত্তর নেই হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

GLM 5 Turbo 1

ব্যর্থতার কারণ

ভুল উত্তর230 API ত্রুটি43 টাইমআউট23 কোন উত্তর নেই18 নির্দেশনা অনুসরণ করা হয়নি16 অতিরিক্ত ফরম্যাটিং12

বিভাগ

কোডিং18 সাধারণ জ্ঞান10 ডোমেইন-নির্দিষ্ট6 ডেটা পার্সিং ও নিষ্কাশন5 অ্যান্টি-এআই কৌশল4 সমন্বিত3 টুল কলিং2 ধাঁধা সমাধান2 নির্দেশনা অনুসরণ2

16/16

র‍্যাঙ্ক	মডেল	কোম্পানি	কোন উত্তর নেই সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#24	GLM 5 Turbo medium	Z.ai	1	8.2	$0.323	2/3	45.9s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 45.9s
#88	Qwen3.6 35B A3B medium	Qwen	1	7.7	$0.146	2/3	50.5s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.146 প্রতিক্রিয়া সময় (গড়) 50.5s
#94	Qwen3.6 27B medium	Qwen	1	7.7	$0.336	2/3	143.0s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.336 প্রতিক্রিয়া সময় (গড়) 143.0s
#43	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.888 প্রতিক্রিয়া সময় (গড়) 214.4s
#55	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.348 প্রতিক্রিয়া সময় (গড়) 217.5s
#103	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.401 প্রতিক্রিয়া সময় (গড়) 206.6s
#146	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.100 প্রতিক্রিয়া সময় (গড়) 101.9s
#71	Gemma 4 26B A4B medium	Google	2	2.9	$0.045	0/3	272.5s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 272.5s
#75	Step 3.7 Flash high	Stepfun	2	4.0	$1.148	0/3	206.2s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $1.148 প্রতিক্রিয়া সময় (গড়) 206.2s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.288 প্রতিক্রিয়া সময় (গড়) 109.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 183.9s
#93	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.070 প্রতিক্রিয়া সময় (গড়) 258.4s
#102	Gemma 4 31B medium	Google	1	4.3	$0.033	0/3	219.8s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 219.8s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.303 প্রতিক্রিয়া সময় (গড়) 188.6s
#176	GLM 4.7 Flash medium	Z.ai	1	3.2	$0.054	0/3	55.3s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 55.3s

মডেল ফিল্টার করুন

কোন উত্তর নেই সংখ্যা অনুযায়ী শীর্ষ মডেল

কোন উত্তর নেই সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

কোডিং: কোন উত্তর নেই

মডেল ফিল্টার করুন

কোন উত্তর নেই সংখ্যা অনুযায়ী শীর্ষ মডেল

কোন উত্তর নেই সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল