নির্দেশনা অনুসরণ মডেল র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

গড় নির্দেশনা অনুসরণ স্কোর

8.6

সেরা মডেল

Laguna XS 2.1 3.8

ব্যর্থতার কারণ

ব্যর্থতার কারণ ভুল উত্তর সহ61 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ19 ব্যর্থতার কারণ অতিরিক্ত ফরম্যাটিং সহ3 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ API ত্রুটি সহ1 ব্যর্থতার কারণ টাইমআউট সহ1

216/216

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ স্কোর	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.756 প্রতিক্রিয়া সময় (গড়) 2.13s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	2/2	31.9s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.437 প্রতিক্রিয়া সময় (গড়) 31.9s
#62	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	2/2	19.7s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 19.7s
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.197 প্রতিক্রিয়া সময় (গড়) 943ms
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.177 প্রতিক্রিয়া সময় (গড়) 7.02s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.387 প্রতিক্রিয়া সময় (গড়) 2.53s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 1.91s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 1.37s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.454 প্রতিক্রিয়া সময় (গড়) 1.58s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.036 প্রতিক্রিয়া সময় (গড়) 12.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.482 প্রতিক্রিয়া সময় (গড়) 2.67s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	2/2	20.2s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.317 প্রতিক্রিয়া সময় (গড়) 20.2s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.046 প্রতিক্রিয়া সময় (গড়) 9.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 18.6s

←

1 9 10 11 15

→

নির্দেশনা অনুসরণ র‌্যাঙ্কিং

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ স্কোর অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল