ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.6 Flash 1

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.177 প্রতিক্রিয়া সময় (গড়) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.777 প্রতিক্রিয়া সময় (গড়) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $1.207 প্রতিক্রিয়া সময় (গড়) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
মোট টেস্ট 19 ভুল টেস্ট 13 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 6.73s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $1.055 প্রতিক্রিয়া সময় (গড়) 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.017 প্রতিক্রিয়া সময় (গড়) 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.774 প্রতিক্রিয়া সময় (গড়) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.571 প্রতিক্রিয়া সময় (গড়) 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.197 প্রতিক্রিয়া সময় (গড়) 4.52s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল