নির্দেশনা অনুসরণ মডেল র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

গড় নির্দেশনা অনুসরণ স্কোর

8.6

সেরা মডেল

Laguna XS 2.1 3.8

ব্যর্থতার কারণ

ব্যর্থতার কারণ ভুল উত্তর সহ61 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ19 ব্যর্থতার কারণ অতিরিক্ত ফরম্যাটিং সহ3 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ API ত্রুটি সহ1 ব্যর্থতার কারণ টাইমআউট সহ1

216/216

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ স্কোর	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	2/2	9.56s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.361 প্রতিক্রিয়া সময় (গড়) 9.56s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	2/2	7.46s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.116 প্রতিক্রিয়া সময় (গড়) 7.46s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.642 প্রতিক্রিয়া সময় (গড়) 2.70s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $4.137 প্রতিক্রিয়া সময় (গড়) 3.36s
#14	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.433 প্রতিক্রিয়া সময় (গড়) 1.86s
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.707 প্রতিক্রিয়া সময় (গড়) 6.23s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	3.04s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.920 প্রতিক্রিয়া সময় (গড়) 3.04s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	2/2	3.32s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.931 প্রতিক্রিয়া সময় (গড়) 3.32s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	1.57s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.477 প্রতিক্রিয়া সময় (গড়) 1.57s
#20	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	2/2	5.90s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $3.478 প্রতিক্রিয়া সময় (গড়) 5.90s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	3.11s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.533 প্রতিক্রিয়া সময় (গড়) 3.11s
#22	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	2/2	24.3s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.143 প্রতিক্রিয়া সময় (গড়) 24.3s
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.935 প্রতিক্রিয়া সময় (গড়) 2.80s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.951 প্রতিক্রিয়া সময় (গড়) 3.12s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.928 প্রতিক্রিয়া সময় (গড়) 6.06s

নির্দেশনা অনুসরণ র‌্যাঙ্কিং

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ স্কোর অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল