ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 4.27s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
মোট টেস্ট 21 ভুল টেস্ট 10 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 23.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.646 প্রতিক্রিয়া সময় (গড়) 16.7s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 1.58s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 6.04s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 10.1s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 18.3s
#196	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 68.3s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
মোট টেস্ট 19 ভুল টেস্ট 12 মোট খরচ $0.547 প্রতিক্রিয়া সময় (গড়) 28.7s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
মোট টেস্ট 19 ভুল টেস্ট 15 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 17.1s
#23	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.935 প্রতিক্রিয়া সময় (গড়) 15.6s
#25	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $1.928 প্রতিক্রিয়া সময় (গড়) 61.7s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 11.5s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.643 প্রতিক্রিয়া সময় (গড়) 21.2s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.584 প্রতিক্রিয়া সময় (গড়) 9.48s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল