কোডিং x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন কোডিং এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

230

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.6 Flash 3

ব্যর্থতার কারণ

ভুল উত্তর230 API ত্রুটি43 টাইমআউট25 কোন উত্তর নেই18 নির্দেশনা অনুসরণ করা হয়নি16 অতিরিক্ত ফরম্যাটিং12

বিভাগ

ডোমেইন-নির্দিষ্ট368 অ্যান্টি-এআই কৌশল270 কোডিং230 ধাঁধা সমাধান173 সাধারণ জ্ঞান150 সমন্বিত58 নির্দেশনা অনুসরণ56 Sadharon Buddhimotta49 ডেটা পার্সিং ও নিষ্কাশন36 টুল কলিং3

134/134

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.349 প্রতিক্রিয়া সময় (গড়) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.054 প্রতিক্রিয়া সময় (গড়) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $3.679 প্রতিক্রিয়া সময় (গড়) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.960 প্রতিক্রিয়া সময় (গড়) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.679 প্রতিক্রিয়া সময় (গড়) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.179	2/3	41.0s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.179 প্রতিক্রিয়া সময় (গড়) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.210 প্রতিক্রিয়া সময় (গড়) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.175 প্রতিক্রিয়া সময় (গড়) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.393 প্রতিক্রিয়া সময় (গড়) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.376 প্রতিক্রিয়া সময় (গড়) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $1.696 প্রতিক্রিয়া সময় (গড়) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.027 প্রতিক্রিয়া সময় (গড়) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.379 প্রতিক্রিয়া সময় (গড়) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
মোট টেস্ট 3 ভুল টেস্ট 1 মোট খরচ $0.852 প্রতিক্রিয়া সময় (গড়) 9.14s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.177 প্রতিক্রিয়া সময় (গড়) 108.6s

←

1 5 6 7 9

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

কোডিং: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল