সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.7 Max 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#3	Qwen3.7 Max medium	Qwen	1	3.0	$0.523	0/1	33.4s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.523 প্রতিক্রিয়া সময় (গড়) 33.4s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.907 প্রতিক্রিয়া সময় (গড়) 10.1s
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $3.679 প্রতিক্রিয়া সময় (গড়) 37.9s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.740 প্রতিক্রিয়া সময় (গড়) 14.4s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.960 প্রতিক্রিয়া সময় (গড়) 60.6s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.679 প্রতিক্রিয়া সময় (গড়) 2.25s
#15	GLM 5 medium	Z.ai	1	3.0	$0.228	0/1	67.4s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.228 প্রতিক্রিয়া সময় (গড়) 67.4s
#16	GPT-5 Mini medium	OpenAI	1	3.0	$0.159	0/1	9.99s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.159 প্রতিক্রিয়া সময় (গড়) 9.99s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $1.210 প্রতিক্রিয়া সময় (গড়) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	$0.175	0/1	48.3s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.175 প্রতিক্রিয়া সময় (গড়) 48.3s
#19	GPT-5.2 Chat none	OpenAI	1	3.0	$0.393	0/1	6.89s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.393 প্রতিক্রিয়া সময় (গড়) 6.89s
#21	GLM 5 Turbo medium	Z.ai	1	3.0	$0.323	0/1	40.2s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 40.2s
#22	GPT-5.2 medium	OpenAI	1	3.0	$0.548	0/1	28.2s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	1	3.0	$0.027	0/1	54.5s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.027 প্রতিক্রিয়া সময় (গড়) 54.5s
#24	Gemini 2.5 Flash medium	Google	1	3.0	$0.379	0/1	2.76s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.379 প্রতিক্রিয়া সময় (গড়) 2.76s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল