সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.7 Max 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 180.9s
#60	Qwen3.7 Plus none	Qwen	1	3.0	$0.023	0/1	1.21s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.023 প্রতিক্রিয়া সময় (গড়) 1.21s
#61	GLM 5.2 none	Z.ai	1	3.0	$0.076	0/1	3.41s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.076 প্রতিক্রিয়া সময় (গড়) 3.41s
#62	MiMo-V2-Flash medium	Xiaomi	1	3.0	$0.043	0/1	1.96s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.043 প্রতিক্রিয়া সময় (গড়) 1.96s
#64	GLM 5.1 medium	Z.ai	1	3.0	$0.292	0/1	29.4s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.292 প্রতিক্রিয়া সময় (গড়) 29.4s
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.583 প্রতিক্রিয়া সময় (গড়) 341.8s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $1.079 প্রতিক্রিয়া সময় (গড়) 4.87s
#67	Gemini 3 Flash Preview none	Google	1	3.0	$0.025	0/1	1.07s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 1.07s
#68	Qwen3.7 Max none	Qwen	1	3.0	$0.054	0/1	856ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 856ms
#70	Qwen3.5-Flash medium	Qwen	1	3.0	$0.080	0/1	49.0s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.080 প্রতিক্রিয়া সময় (গড়) 49.0s
#71	Gemini 3.5 Flash minimal	Google	1	3.0	$0.108	0/1	1.76s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 1.76s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 113.9s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 234.2s
#74	Hy3 preview high	Tencent	1	3.0	$0.059	0/1	47.7s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.059 প্রতিক্রিয়া সময় (গড়) 47.7s
#75	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.146	0/1	32.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.146 প্রতিক্রিয়া সময় (গড়) 32.9s

←

1 3 4 5 9

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল