ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.604 প্রতিক্রিয়া সময় (গড়) 7.65s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.177 প্রতিক্রিয়া সময় (গড়) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.777 প্রতিক্রিয়া সময় (গড়) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $1.207 প্রতিক্রিয়া সময় (গড়) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
মোট টেস্ট 19 ভুল টেস্ট 13 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 6.73s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.533 প্রতিক্রিয়া সময় (গড়) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $1.143 প্রতিক্রিয়া সময় (গড়) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.237 প্রতিক্রিয়া সময় (গড়) 27.6s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল