সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.7 Max 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.927 প্রতিক্রিয়া সময় (গড়) 53.5s
#43	Kimi K2.5 medium	Moonshot AI	1	3.0	$0.348	0/1	83.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.348 প্রতিক্রিয়া সময় (গড়) 83.9s
#44	Mercury 2 medium	Inception	1	3.0	$0.058	0/1	2.58s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.058 প্রতিক্রিয়া সময় (গড়) 2.58s
#45	GPT-5.3 Chat none	OpenAI	1	3.0	$0.433	0/1	4.38s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.433 প্রতিক্রিয়া সময় (গড়) 4.38s
#46	GPT-5.4 Nano medium	OpenAI	1	3.0	$0.107	0/1	4.81s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.107 প্রতিক্রিয়া সময় (গড়) 4.81s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.288 প্রতিক্রিয়া সময় (গড়) 122.9s
#48	DeepSeek V3.2 medium	DeepSeek	1	3.0	$0.044	0/1	84.0s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 84.0s
#49	Claude Opus 4.7 none	Anthropic	1	3.0	$0.505	0/1	1.46s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.505 প্রতিক্রিয়া সময় (গড়) 1.46s
#50	Seed-2.0-Mini medium	Bytedance Seed	1	3.0	$0.044	0/1	56.8s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 56.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	1	3.0	$0.106	0/1	12.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.609 প্রতিক্রিয়া সময় (গড়) 63.5s
#54	Hy3 preview medium	Tencent	1	3.0	$0.021	0/1	39.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 39.9s
#55	Claude Sonnet 4.6 none	Anthropic	1	3.0	$0.316	0/1	4.67s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.316 প্রতিক্রিয়া সময় (গড়) 4.67s
#56	GLM 5V Turbo medium	Z.ai	1	3.0	$0.457	0/1	41.0s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 41.0s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.0	$0.034	0/1	5.76s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.034 প্রতিক্রিয়া সময় (গড়) 5.76s

←

1 2 3 4 9

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল