ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
মোট টেস্ট 21 ভুল টেস্ট 13 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 2.44s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 1.19s
#198	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
মোট টেস্ট 19 ভুল টেস্ট 15 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 2.89s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 1.11s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.467 প্রতিক্রিয়া সময় (গড়) 24.0s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.145 প্রতিক্রিয়া সময় (গড়) 2.25s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.369 প্রতিক্রিয়া সময় (গড়) 6.01s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.621 প্রতিক্রিয়া সময় (গড়) 16.3s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 5.34s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 21.9s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 137.1s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.077 প্রতিক্রিয়া সময় (গড়) 15.9s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.002 প্রতিক্রিয়া সময় (গড়) 10.7s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
মোট টেস্ট 21 ভুল টেস্ট 14 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 39.9s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল