ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

Step 3.5 Flash 4

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.676 প্রতিক্রিয়া সময় (গড়) 7.11s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.571 প্রতিক্রিয়া সময় (গড়) 6.88s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
মোট টেস্ট 19 ভুল টেস্ট 13 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 6.73s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.164 প্রতিক্রিয়া সময় (গড়) 6.70s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.177 প্রতিক্রিয়া সময় (গড়) 6.28s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 6.20s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 6.04s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.369 প্রতিক্রিয়া সময় (গড়) 6.01s
#183	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 5.97s
#14	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
মোট টেস্ট 22 ভুল টেস্ট 3 মোট খরচ $0.433 প্রতিক্রিয়া সময় (গড়) 5.55s
#167	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.061 প্রতিক্রিয়া সময় (গড়) 5.52s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 5.34s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.519 প্রতিক্রিয়া সময় (গড়) 5.31s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 5.18s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 5.15s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল