ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

1558

সবচেয়ে বেশি প্রভাবিত মডেল

Nemotron 3 Nano Omni 30b A3b Reasoning 9

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে412 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে252 ধাঁধা সমাধান বিভাগে201 সাধারণ জ্ঞান বিভাগে168 সমন্বিত বিভাগে68 নির্দেশনা অনুসরণ বিভাগে61 Sadharon Buddhimotta বিভাগে59 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

209/209

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#89	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.085 প্রতিক্রিয়া সময় (গড়) 2.95s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 2.98s
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
মোট টেস্ট 21 ভুল টেস্ট 13 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 2.99s
#94	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
মোট টেস্ট 19 ভুল টেস্ট 3 মোট খরচ $0.505 প্রতিক্রিয়া সময় (গড়) 3.02s
#164	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.147 প্রতিক্রিয়া সময় (গড়) 3.50s
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 3.74s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
মোট টেস্ট 21 ভুল টেস্ট 12 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 4.03s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 4.12s
#65	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 4.27s
#116	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.066 প্রতিক্রিয়া সময় (গড়) 4.40s
#59	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.197 প্রতিক্রিয়া সময় (গড়) 4.52s
#64	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 4.61s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 4.62s
#196	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 4.70s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল