ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.6 Flash 1

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.478 প্রতিক্রিয়া সময় (গড়) 136.6s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 4.27s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
মোট টেস্ট 21 ভুল টেস্ট 10 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 23.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.646 প্রতিক্রিয়া সময় (গড়) 16.7s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 1.58s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 6.04s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 10.1s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 18.3s
#196	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 68.3s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
মোট টেস্ট 19 ভুল টেস্ট 12 মোট খরচ $0.547 প্রতিক্রিয়া সময় (গড়) 28.7s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
মোট টেস্ট 19 ভুল টেস্ট 15 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 17.1s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.676 প্রতিক্রিয়া সময় (গড়) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.352 প্রতিক্রিয়া সময় (গড়) 7.28s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 13.2s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল