সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.7 Max 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#93	Gemini 2.5 Flash none	Google	1	3.0	$0.016	0/1	1.15s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 1.15s
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 724ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.013 প্রতিক্রিয়া সময় (গড়) 733ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.005 প্রতিক্রিয়া সময় (গড়) 588ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 1.25s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	3.0	$0.027	0/1	1.83s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.027 প্রতিক্রিয়া সময় (গড়) 1.83s
#100	Qwen3.6 Max Preview none	Qwen	1	3.0	$0.075	0/1	1.97s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.075 প্রতিক্রিয়া সময় (গড়) 1.97s
#101	GLM 5 none	Z.ai	1	3.0	$0.027	0/1	3.62s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.027 প্রতিক্রিয়া সময় (গড়) 3.62s
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 649ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.012 প্রতিক্রিয়া সময় (গড়) 493ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 599ms
#105	GLM 5V Turbo none	Z.ai	1	3.0	$0.052	0/1	2.23s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 2.23s
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	1	3.0	$0.016	0/1	1.11s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 1.11s
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.38s
#109	Mimo V2 PRO none	Xiaomi	1	3.0	$0.045	0/1	1.63s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 1.63s

←

1 5 6 7 9

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল