ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

1558

সবচেয়ে বেশি প্রভাবিত মডেল

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে412 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে252 ধাঁধা সমাধান বিভাগে201 সাধারণ জ্ঞান বিভাগে168 সমন্বিত বিভাগে68 নির্দেশনা অনুসরণ বিভাগে61 Sadharon Buddhimotta বিভাগে59 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

209/209

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 3.74s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 13.6s
#127	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.7s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
মোট টেস্ট 21 ভুল টেস্ট 12 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 4.03s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 36.8s
#162	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 8.58s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 10.8s
#171	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 29.9s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 2.98s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.544 প্রতিক্রিয়া সময় (গড়) 2.36s
#102	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 47.9s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.046 প্রতিক্রিয়া সময় (গড়) 1.75s
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.349 প্রতিক্রিয়া সময় (গড়) 1.65s
#138	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 19.6s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল