ডোমেইন-নির্দিষ্ট x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

421

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 3

ব্যর্থতার কারণ

ভুল উত্তর421 টাইমআউট43 অতিরিক্ত ফরম্যাটিং17 কোন উত্তর নেই8 API ত্রুটি7 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

202/202

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#174	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 756ms
#175	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 464ms
#177	North Mini Code none	Cohere	3	3.0	$0.000	0/3	14.7s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 14.7s
#180	GPT-4o-mini none	OpenAI	3	3.0	$0.010	0/3	637ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 637ms
#183	Nemotron 3 Super none	NVIDIA	3	3.6	$0.008	0/3	6.23s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 6.23s
#184	Ling-2.6-flash none	Inclusionai	3	3.0	$0.002	0/3	4.95s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.002 প্রতিক্রিয়া সময় (গড়) 4.95s
#186	GPT-5.4 Nano none	OpenAI	3	2.9	$0.041	0/3	926ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 926ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	6.24s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.067 প্রতিক্রিয়া সময় (গড়) 6.24s
#194	Cobuddy medium	Baidu	3	2.9	$0.000	0/3	128.2s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 128.2s
#197	Grok 4.20 Beta none	X AI	3	3.0	$0.087	0/3	611ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 611ms
#198	Laguna M.1 none	Poolside	3	3.6	$0.009	0/3	5.50s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 5.50s
#199	Elephant Alpha none	Openrouter	3	3.0	$0.000	0/3	927ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 927ms
#201	Elephant Alpha medium	Openrouter	3	3.0	$0.000	0/3	925ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 925ms
#207	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 357ms
#212	gpt-oss-120b none	OpenAI	3	3.0	$0.010	0/3	35.0s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 35.0s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডোমেইন-নির্দিষ্ট: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল