সাধারণ জ্ঞান x ভুল উত্তর র‌্যাঙ্কিং

AI BENCHY বিভাগীয় ব্যর্থতা

দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

133

সবচেয়ে বেশি প্রভাবিত মডেল

Kimi K2.7 Code 1

ব্যর্থতার কারণ

ভুল উত্তর133 API ত্রুটি13 কোন উত্তর নেই8

বিভাগ

ডোমেইন-নির্দিষ্ট325 অ্যান্টি-এআই কৌশল250 কোডিং201 ধাঁধা সমাধান154 সাধারণ জ্ঞান133 নির্দেশনা অনুসরণ54 সমন্বিত53 Sadharon Buddhimotta36 ডেটা পার্সিং ও নিষ্কাশন35 টুল কলিং2

133/133

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.583 প্রতিক্রিয়া সময় (গড়) 341.8s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 234.2s
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 180.9s
#89	Qwen3.5-35B-A3B medium	Qwen	1	3.0	$0.401	0/1	177.4s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.401 প্রতিক্রিয়া সময় (গড়) 177.4s
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 133.6s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.889 প্রতিক্রিয়া সময় (গড়) 130.3s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.288 প্রতিক্রিয়া সময় (গড়) 122.9s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.020 প্রতিক্রিয়া সময় (গড়) 114.1s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 113.9s
#80	Step 3.5 Flash medium	Stepfun	1	3.0	$0.070	0/1	108.4s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.070 প্রতিক্রিয়া সময় (গড়) 108.4s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	$0.310	0/1	103.8s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.310 প্রতিক্রিয়া সময় (গড়) 103.8s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	$0.317	0/1	92.6s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.317 প্রতিক্রিয়া সময় (গড়) 92.6s
#25	Qwen3.7 Plus medium	Qwen	1	3.0	$0.177	0/1	91.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.177 প্রতিক্রিয়া সময় (গড়) 91.1s
#88	Gemma 4 31B medium	Google	1	3.0	$0.033	0/1	90.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 90.1s
#29	Qwen3.5-27B medium	Qwen	1	3.0	$0.536	0/1	85.1s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.536 প্রতিক্রিয়া সময় (গড়) 85.1s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সাধারণ জ্ঞান: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল