কোডিং x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন কোডিং এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

230

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.6 Flash 3

ব্যর্থতার কারণ

ভুল উত্তর230 API ত্রুটি43 টাইমআউট23 কোন উত্তর নেই18 নির্দেশনা অনুসরণ করা হয়নি16 অতিরিক্ত ফরম্যাটিং12

বিভাগ

ডোমেইন-নির্দিষ্ট367 অ্যান্টি-এআই কৌশল270 কোডিং230 ধাঁধা সমাধান172 সাধারণ জ্ঞান149 সমন্বিত58 নির্দেশনা অনুসরণ56 Sadharon Buddhimotta49 ডেটা পার্সিং ও নিষ্কাশন36 টুল কলিং3

134/134

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#57	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.433 প্রতিক্রিয়া সময় (গড়) 10.5s
#58	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.107 প্রতিক্রিয়া সময় (গড়) 19.1s
#64	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.111 প্রতিক্রিয়া সময় (গড়) 6.00s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.609 প্রতিক্রিয়া সময় (গড়) 109.9s
#68	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 63.4s
#72	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.023 প্রতিক্রিয়া সময় (গড়) 2.15s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 7.55s
#77	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.036 প্রতিক্রিয়া সময় (গড়) 70.3s
#80	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 1.80s
#81	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 1.35s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.080 প্রতিক্রিয়া সময় (গড়) 58.9s
#89	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.061 প্রতিক্রিয়া সময় (গড়) 97.1s
#91	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 38.4s
#92	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.081 প্রতিক্রিয়া সময় (গড়) 41.6s
#95	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 1.39s

←

1 2 3 4 9

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

কোডিং: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল