ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

1558

সবচেয়ে বেশি প্রভাবিত মডেল

Nemotron 3 Nano Omni 30b A3b Reasoning 9

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে412 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে252 ধাঁধা সমাধান বিভাগে201 সাধারণ জ্ঞান বিভাগে168 সমন্বিত বিভাগে68 নির্দেশনা অনুসরণ বিভাগে61 Sadharon Buddhimotta বিভাগে59 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

209/209

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
মোট টেস্ট 19 ভুল টেস্ট 17 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 728ms
#210	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
মোট টেস্ট 16 ভুল টেস্ট 14 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 782ms
#205	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
মোট টেস্ট 19 ভুল টেস্ট 14 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 806ms
#189	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 829ms
#197	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 1.11s
#191	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 1.19s
#165	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 1.20s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
মোট টেস্ট 21 ভুল টেস্ট 16 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.22s
#195	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
মোট টেস্ট 21 ভুল টেস্ট 15 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.27s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
মোট টেস্ট 22 ভুল টেস্ট 20 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 1.45s
#159	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.142 প্রতিক্রিয়া সময় (গড়) 1.50s
#136	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 1.53s
#160	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.55s
#106	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 1.58s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
মোট টেস্ট 19 ভুল টেস্ট 16 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.62s

1 2 14

→

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল