সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.5-122B-A10B 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.020 প্রতিক্রিয়া সময় (গড়) 295ms
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 306ms
#129	Mistral Small 4 none	Mistral	1	3.0	$0.007	0/1	397ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 397ms
#148	Qwen3 Coder Next medium	Qwen	1	3.0	$0.008	0/1	399ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 399ms
#128	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.031	0/1	414ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.031 প্রতিক্রিয়া সময় (গড়) 414ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.012 প্রতিক্রিয়া সময় (গড়) 493ms
#151	Mercury 2 none	Inception	1	3.0	$0.011	0/1	548ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.011 প্রতিক্রিয়া সময় (গড়) 548ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.005 প্রতিক্রিয়া সময় (গড়) 588ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 599ms
#130	Qwen3 Coder Next none	Qwen	1	3.0	$0.009	0/1	601ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 601ms
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 649ms
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 692ms
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 724ms
#161	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/1	731ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 731ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 733ms

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল