সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.7 Max 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.50s
#111	Kimi K2.6 none	Moonshot AI	1	3.0	$0.079	0/1	1.36s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.079 প্রতিক্রিয়া সময় (গড়) 1.36s
#112	GPT-5.4 none	OpenAI	1	3.0	$0.122	0/1	990ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 990ms
#114	Mimo V2 Omni none	Xiaomi	1	3.0	$0.021	0/1	1.30s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 1.30s
#115	Grok 4.1 Fast medium	X AI	1	3.0	$0.069	0/1	25.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.069 প্রতিক্রিয়া সময় (গড়) 25.5s
#116	GLM 5.1 none	Z.ai	1	3.0	$0.058	0/1	2.34s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.058 প্রতিক্রিয়া সময় (গড়) 2.34s
#117	DeepSeek V4 Flash none	DeepSeek	1	3.0	$0.007	0/1	3.07s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 3.07s
#118	Kimi K2.5 none	Moonshot AI	1	3.0	$0.027	0/1	3.90s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.027 প্রতিক্রিয়া সময় (গড়) 3.90s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.0	$0.017	0/1	1.89s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 1.89s
#120	Qwen3.6 27B none	Qwen	1	3.0	$0.028	0/1	4.03s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.028 প্রতিক্রিয়া সময় (গড়) 4.03s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 778ms
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.0	$0.032	0/1	33.3s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 33.3s
#123	GLM 5 Turbo none	Z.ai	1	3.0	$0.047	0/1	2.37s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 2.37s
#124	GPT-5.4 Mini none	OpenAI	1	3.0	$0.038	0/1	1.33s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.038 প্রতিক্রিয়া সময় (গড়) 1.33s
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.020 প্রতিক্রিয়া সময় (গড়) 295ms

←

1 6 7 8 9

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল