ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.6 Flash 1

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
মোট টেস্ট 19 ভুল টেস্ট 10 মোট খরচ $0.069 প্রতিক্রিয়া সময় (গড়) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
মোট টেস্ট 19 ভুল টেস্ট 10 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 14.7s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.533 প্রতিক্রিয়া সময় (গড়) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $1.143 প্রতিক্রিয়া সময় (গড়) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.237 প্রতিক্রিয়া সময় (গড়) 27.6s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.515 প্রতিক্রিয়া সময় (গড়) 26.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 48.5s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.267 প্রতিক্রিয়া সময় (গড়) 51.5s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.405 প্রতিক্রিয়া সময় (গড়) 43.1s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $1.097 প্রতিক্রিয়া সময় (গড়) 52.1s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.740 প্রতিক্রিয়া সময় (গড়) 84.2s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.661 প্রতিক্রিয়া সময় (গড়) 8.12s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $1.046 প্রতিক্রিয়া সময় (গড়) 64.2s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 47.4s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.078 প্রতিক্রিয়া সময় (গড়) 68.6s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল