সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.7 Max 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#25	Qwen3.7 Plus medium	Qwen	1	3.0	$0.177	0/1	91.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.177 প্রতিক্রিয়া সময় (গড়) 91.1s
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	1	3.0	$0.158	0/1	38.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.158 প্রতিক্রিয়া সময় (গড়) 38.5s
#27	GPT-5.4 Mini medium	OpenAI	1	3.0	$0.526	0/1	30.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.526 প্রতিক্রিয়া সময় (গড়) 30.1s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	$0.310	0/1	103.8s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.310 প্রতিক্রিয়া সময় (গড়) 103.8s
#29	Qwen3.5-27B medium	Qwen	1	3.0	$0.536	0/1	85.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.536 প্রতিক্রিয়া সময় (গড়) 85.1s
#30	Qwen3.6 Plus medium	Qwen	1	3.0	$0.294	0/1	47.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.294 প্রতিক্রিয়া সময় (গড়) 47.5s
#31	Claude Sonnet 4.6 medium	Anthropic	1	3.0	$1.418	0/1	30.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $1.418 প্রতিক্রিয়া সময় (গড়) 30.1s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	3.0	$0.068	0/1	2.68s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 2.68s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	$0.317	0/1	92.6s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.317 প্রতিক্রিয়া সময় (গড়) 92.6s
#34	Gemini 3.1 Flash Lite medium	Google	1	3.0	$0.071	0/1	3.08s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.071 প্রতিক্রিয়া সময় (গড়) 3.08s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.889 প্রতিক্রিয়া সময় (গড়) 130.3s
#36	Qwen3.5-122B-A10B medium	Qwen	1	3.0	$0.588	0/1	52.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.588 প্রতিক্রিয়া সময় (গড়) 52.9s
#37	Grok 4.3 medium	X AI	1	3.0	$0.614	0/1	44.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.614 প্রতিক্রিয়া সময় (গড়) 44.5s
#38	Claude Opus 4.6 medium	Anthropic	1	3.0	$2.053	0/1	63.2s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $2.053 প্রতিক্রিয়া সময় (গড়) 63.2s
#41	DeepSeek V4 Pro high	DeepSeek	1	3.0	$0.157	0/1	34.0s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.157 প্রতিক্রিয়া সময় (গড়) 34.0s

←

1 2 3 9

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল