কোডিং x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন কোডিং এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

230

সবচেয়ে বেশি প্রভাবিত মডেল

Laguna XS 2.1 3

ব্যর্থতার কারণ

ভুল উত্তর230 API ত্রুটি43 টাইমআউট23 কোন উত্তর নেই18 নির্দেশনা অনুসরণ করা হয়নি16 অতিরিক্ত ফরম্যাটিং12

বিভাগ

ডোমেইন-নির্দিষ্ট367 অ্যান্টি-এআই কৌশল270 কোডিং230 ধাঁধা সমাধান172 সাধারণ জ্ঞান149 সমন্বিত58 নির্দেশনা অনুসরণ56 Sadharon Buddhimotta49 ডেটা পার্সিং ও নিষ্কাশন36 টুল কলিং3

134/134

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 623ms
#108	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 736ms
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 775ms
#109	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 831ms
#112	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.005 প্রতিক্রিয়া সময় (গড়) 850ms
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 901ms
#143	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.038 প্রতিক্রিয়া সময় (গড়) 913ms
#167	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 924ms
#111	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 938ms
#97	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 967ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 980ms
#116	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.130 প্রতিক্রিয়া সময় (গড়) 1.00s
#114	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.027 প্রতিক্রিয়া সময় (গড়) 1.02s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.011 প্রতিক্রিয়া সময় (গড়) 1.03s
#168	Grok 4.20 Beta none	X AI	1	1.8	$0.087	0/1	1.14s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 1.14s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

কোডিং: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল