সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.7 Max 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#126	DeepSeek V3.2 none	DeepSeek	1	3.0	$0.017	0/1	17.2s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 17.2s
#127	MiniMax M2.7 medium	Minimax	1	3.0	$0.104	0/1	22.8s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.104 প্রতিক্রিয়া সময় (গড়) 22.8s
#128	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.031	0/1	414ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.031 প্রতিক্রিয়া সময় (গড়) 414ms
#129	Mistral Small 4 none	Mistral	1	3.0	$0.007	0/1	397ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 397ms
#130	Qwen3 Coder Next none	Qwen	1	3.0	$0.009	0/1	601ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 601ms
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 37.4s
#133	Mistral Small 4 medium	Mistral	1	3.0	$0.068	0/1	5.92s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 5.92s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 3.89s
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.006 প্রতিক্রিয়া সময় (গড়) 2.32s
#137	Trinity Large Preview none	Arcee AI	1	3.0	$0.008	0/1	777ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 777ms
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.006 প্রতিক্রিয়া সময় (গড়) 794ms
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 37.0s
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 692ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 8.94s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 1.06s

←

1 7 8 9

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল