সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.7 Max 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 133.6s
#145	GPT-5.4 Nano none	OpenAI	1	3.0	$0.011	0/1	773ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.011 প্রতিক্রিয়া সময় (গড়) 773ms
#146	MiniMax M2.5 medium	Minimax	1	3.0	$0.303	0/1	80.8s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.303 প্রতিক্রিয়া সময় (গড়) 80.8s
#148	Qwen3 Coder Next medium	Qwen	1	3.0	$0.008	0/1	399ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 399ms
#151	Mercury 2 none	Inception	1	3.0	$0.011	0/1	548ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.011 প্রতিক্রিয়া সময় (গড়) 548ms
#157	GLM 4.7 Flash medium	Z.ai	1	3.0	$0.054	0/1	11.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 11.1s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 2.71s
#159	MiMo-V2-Flash none	Xiaomi	1	3.0	$0.025	0/1	1.82s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 1.82s
#160	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	36.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.547 প্রতিক্রিয়া সময় (গড়) 36.1s
#161	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/1	731ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 731ms
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 306ms
#164	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	47.3s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 47.3s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.020 প্রতিক্রিয়া সময় (গড়) 114.1s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল