ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#199	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
মোট টেস্ট 21 ভুল টেস্ট 16 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.22s
#200	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.166 প্রতিক্রিয়া সময় (গড়) 142.6s
#201	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
মোট টেস্ট 21 ভুল টেস্ট 15 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.27s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
মোট টেস্ট 18 ভুল টেস্ট 12 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 4.70s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
মোট টেস্ট 19 ভুল টেস্ট 17 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 728ms
#216	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
মোট টেস্ট 16 ভুল টেস্ট 14 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 782ms
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.676 প্রতিক্রিয়া সময় (গড়) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.352 প্রতিক্রিয়া সময় (গড়) 7.28s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 13.2s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.519 প্রতিক্রিয়া সময় (গড়) 5.31s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.454 প্রতিক্রিয়া সময় (গড়) 20.7s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.317 প্রতিক্রিয়া সময় (গড়) 46.4s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 11.6s
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.738 প্রতিক্রিয়া সময় (গড়) 44.7s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল