নির্দেশনা অনুসরণ x ভুল উত্তর র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

ব্যর্থতার কারণ

ভুল উত্তর61 নির্দেশনা অনুসরণ করা হয়নি18 অতিরিক্ত ফরম্যাটিং3 কোন উত্তর নেই2 API ত্রুটি1 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

61/61

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#177	Nemotron 3 Super none	NVIDIA	1	6.3	$0.008	1/2	804ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 804ms
#180	GPT-5.4 Nano none	OpenAI	1	6.3	$0.041	1/2	784ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 784ms
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 822ms
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 7.49s
#189	Mercury 2 none	Inception	1	6.5	$0.030	1/2	551ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 551ms
#191	Grok 4.20 Beta none	X AI	1	6.3	$0.087	1/2	649ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 649ms
#192	Laguna M.1 none	Poolside	1	6.3	$0.009	1/2	683ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 683ms
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.166 প্রতিক্রিয়া সময় (গড়) 2.97s
#196	Hunter Alpha none	OpenRouter	1	6.4	$0.000	1/2	2.82s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.82s
#197	Grok 4.20 none	X AI	1	6.3	$0.057	1/2	445ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 445ms
#200	MiMo-V2-Flash none	Xiaomi	1	6.5	$0.025	1/2	857ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 857ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 344ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 685ms
#205	Laguna Xs.2 none	Poolside	1	6.5	$0.004	1/2	439ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 439ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 541ms

←

1 2 3 4 5

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল