ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.6 Flash 1

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $2.057 প্রতিক্রিয়া সময় (গড়) 25.9s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $2.077 প্রতিক্রিয়া সময় (গড়) 12.7s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
মোট টেস্ট 21 ভুল টেস্ট 7 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 23.0s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.437 প্রতিক্রিয়া সময় (গড়) 89.2s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 111.9s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 4.91s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.535 প্রতিক্রিয়া সময় (গড়) 46.8s
#84	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.101 প্রতিক্রিয়া সময় (গড়) 92.5s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.746 প্রতিক্রিয়া সময় (গড়) 58.1s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.139 প্রতিক্রিয়া সময় (গড়) 84.8s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
মোট টেস্ট 21 ভুল টেস্ট 10 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 174.2s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
মোট টেস্ট 18 ভুল টেস্ট 8 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 62.0s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
মোট টেস্ট 21 ভুল টেস্ট 11 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 24.6s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
মোট টেস্ট 18 ভুল টেস্ট 10 মোট খরচ $5.599 প্রতিক্রিয়া সময় (গড়) 9.69s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
মোট টেস্ট 18 ভুল টেস্ট 10 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 10.3s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল