নির্দেশনা অনুসরণ মডেল র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: মেট্রিক ↑.

দেখানো মডেল

গড় নির্দেশনা অনুসরণ স্কোর

8.5

সেরা মডেল

Grok 4.1 Fast 3.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ ভুল উত্তর সহ61 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ18 ব্যর্থতার কারণ অতিরিক্ত ফরম্যাটিং সহ3 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ API ত্রুটি সহ1 ব্যর্থতার কারণ টাইমআউট সহ1

210/210

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ স্কোর	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#125	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 8.81s
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 809ms
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 728ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 513ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 690ms
#164	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.147 প্রতিক্রিয়া সময় (গড়) 1.72s
#166	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 7.78s
#174	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 1.11s
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 804ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 784ms
#187	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 7.49s
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 649ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 445ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 752ms
#82	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 4.12s

নির্দেশনা অনুসরণ র‌্যাঙ্কিং

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ স্কোর অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল