ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↑.

দেখানো মডেল

মোট ব্যর্থতা

1558

সবচেয়ে বেশি প্রভাবিত মডেল

LFM2-24B-A2B 9

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে412 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে252 ধাঁধা সমাধান বিভাগে201 সাধারণ জ্ঞান বিভাগে168 সমন্বিত বিভাগে68 নির্দেশনা অনুসরণ বিভাগে61 Sadharon Buddhimotta বিভাগে59 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

209/209

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#210	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
মোট টেস্ট 16 ভুল টেস্ট 14 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 782ms
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
মোট টেস্ট 12 ভুল টেস্ট 6 মোট খরচ $0.020 প্রতিক্রিয়া সময় (গড়) 39.0s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
মোট টেস্ট 19 ভুল টেস্ট 17 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 728ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
মোট টেস্ট 19 ভুল টেস্ট 15 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 17.1s
#206	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
মোট টেস্ট 19 ভুল টেস্ট 13 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 21.6s
#205	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
মোট টেস্ট 19 ভুল টেস্ট 14 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 806ms
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
মোট টেস্ট 22 ভুল টেস্ট 19 মোট খরচ $0.036 প্রতিক্রিয়া সময় (গড়) 82.2s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
মোট টেস্ট 19 ভুল টেস্ট 16 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.62s
#202	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
মোট টেস্ট 19 ভুল টেস্ট 12 মোট খরচ $0.547 প্রতিক্রিয়া সময় (গড়) 28.7s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
মোট টেস্ট 22 ভুল টেস্ট 20 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 1.45s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 2.76s
#199	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 12.9s
#198	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
মোট টেস্ট 19 ভুল টেস্ট 13 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 6.73s
#197	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 1.11s
#196	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 4.70s

1 2 14

→

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল