ডোমেইন-নির্দিষ্ট x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

421

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 3

ব্যর্থতার কারণ

ভুল উত্তর421 টাইমআউট43 অতিরিক্ত ফরম্যাটিং17 কোন উত্তর নেই8 API ত্রুটি7 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

202/202

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.454 প্রতিক্রিয়া সময় (গড়) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.078 প্রতিক্রিয়া সময় (গড়) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.600 প্রতিক্রিয়া সময় (গড়) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $1.207 প্রতিক্রিয়া সময় (গড়) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.746 প্রতিক্রিয়া সময় (গড়) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.089 প্রতিক্রিয়া সময় (গড়) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.128 প্রতিক্রিয়া সময় (গড়) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.646 প্রতিক্রিয়া সময় (গড়) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.621 প্রতিক্রিয়া সময় (গড়) 1.52s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডোমেইন-নির্দিষ্ট: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল