ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

1523

সবচেয়ে বেশি প্রভাবিত মডেল

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে404 অ্যান্টি-এআই কৌশল বিভাগে290 কোডিং বিভাগে249 ধাঁধা সমাধান বিভাগে193 সাধারণ জ্ঞান বিভাগে165 সমন্বিত বিভাগে67 নির্দেশনা অনুসরণ বিভাগে57 Sadharon Buddhimotta বিভাগে55 ডেটা পার্সিং ও নিষ্কাশন বিভাগে40 টুল কলিং বিভাগে3

205/205

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.127 প্রতিক্রিয়া সময় (গড়) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.397 প্রতিক্রিয়া সময় (গড়) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.142 প্রতিক্রিয়া সময় (গড়) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.066 প্রতিক্রিয়া সময় (গড়) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 1.53s

1 2 14

→

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল