ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.085 প্রতিক্রিয়া সময় (গড়) 2.95s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 100.3s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.128 প্রতিক্রিয়া সময় (গড়) 9.34s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 5.15s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
মোট টেস্ট 21 ভুল টেস্ট 17 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 12.9s
#211	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
মোট টেস্ট 19 ভুল টেস্ট 14 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 806ms
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
মোট টেস্ট 19 ভুল টেস্ট 13 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 21.6s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $1.055 প্রতিক্রিয়া সময় (গড়) 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.017 প্রতিক্রিয়া সময় (গড়) 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.774 প্রতিক্রিয়া সময় (গড়) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.571 প্রতিক্রিয়া সময় (গড়) 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.197 প্রতিক্রিয়া সময় (গড়) 4.52s
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.478 প্রতিক্রিয়া সময় (গড়) 136.6s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 4.61s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল