কোডিং x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন কোডিং এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

230

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.6 Flash 3

ব্যর্থতার কারণ

ভুল উত্তর230 API ত্রুটি43 টাইমআউট25 কোন উত্তর নেই18 নির্দেশনা অনুসরণ করা হয়নি16 অতিরিক্ত ফরম্যাটিং12

বিভাগ

ডোমেইন-নির্দিষ্ট368 অ্যান্টি-এআই কৌশল270 কোডিং230 ধাঁধা সমাধান173 সাধারণ জ্ঞান150 সমন্বিত58 নির্দেশনা অনুসরণ56 Sadharon Buddhimotta49 ডেটা পার্সিং ও নিষ্কাশন36 টুল কলিং3

134/134

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#98	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 967ms
#99	Gemini 3.1 Flash Lite low	Google	2	5.5	$0.028	1/3	1.53s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.028 প্রতিক্রিয়া সময় (গড়) 1.53s
#102	GPT-5.6 Sol none	OpenAI	2	5.5	$0.225	1/3	1.39s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.225 প্রতিক্রিয়া সময় (গড়) 1.39s
#105	GPT-5.5 none	OpenAI	2	5.5	$0.231	1/3	1.35s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.231 প্রতিক্রিয়া সময় (গড়) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	2	5.6	$0.019	1/3	2.83s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 2.83s
#108	GPT-5.6 Luna low	OpenAI	2	5.5	$0.141	1/3	4.61s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.141 প্রতিক্রিয়া সময় (গড়) 4.61s
#109	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 831ms
#112	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 938ms
#113	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.005 প্রতিক্রিয়া সময় (গড়) 850ms
#114	Gemma 4 31B none	Google	2	5.5	$0.004	1/3	11.2s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.027 প্রতিক্রিয়া সময় (গড়) 1.02s
#117	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.130 প্রতিক্রিয়া সময় (গড়) 1.00s
#119	Qwen3.6 Flash none	Qwen	2	5.4	$0.015	1/3	1.79s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	2	5.5	$0.012	1/3	1.39s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.012 প্রতিক্রিয়া সময় (গড়) 1.39s

←

1 3 4 5 9

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

কোডিং: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল