নির্দেশনা অনুসরণ x ভুল উত্তর র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

ব্যর্থতার কারণ

ভুল উত্তর61 নির্দেশনা অনুসরণ করা হয়নি18 অতিরিক্ত ফরম্যাটিং3 কোন উত্তর নেই2 API ত্রুটি1 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

61/61

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.2	$0.122	1/2	1.17s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 1.17s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.3	$0.106	1/2	809ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 809ms
#136	GPT-5.4 Mini none	OpenAI	1	6.3	$0.095	1/2	728ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 728ms
#138	Kimi K2.6 none	Moonshot AI	1	6.5	$0.184	1/2	1.64s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 1.64s
#139	GPT-5.4 none	OpenAI	1	6.5	$0.397	1/2	1.07s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.397 প্রতিক্রিয়া সময় (গড়) 1.07s
#142	Qwen3.5-122B-A10B none	Qwen	1	6.3	$0.247	1/2	513ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 513ms
#145	GLM 5V Turbo none	Z.ai	1	6.5	$0.052	1/2	1.97s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 1.97s
#146	Owl Alpha medium	Openrouter	1	6.5	$0.000	1/2	10.2s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 10.2s
#147	Mimo V2 PRO none	Xiaomi	1	6.5	$0.045	1/2	2.51s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 2.51s
#148	Owl Alpha none	Openrouter	1	6.4	$0.000	1/2	2.63s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.63s
#152	Qwen3.6 27B none	Qwen	1	6.2	$0.087	1/2	1.92s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 1.92s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.4	$0.068	1/2	1.03s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 1.03s
#155	Kimi K2.5 none	Moonshot AI	1	6.5	$0.127	1/2	2.67s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.127 প্রতিক্রিয়া সময় (গড়) 2.67s
#156	Gemma 4 26B A4B none	Google	1	6.3	$0.015	1/2	690ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 690ms
#157	Mimo V2 Omni none	Xiaomi	1	6.5	$0.021	1/2	4.26s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 4.26s

←

1 2 3 4 5

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল