নির্দেশনা অনুসরণ মডেল র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

গড় নির্দেশনা অনুসরণ স্কোর

8.5

সেরা মডেল

Gemini 3 Flash Preview 10.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ ভুল উত্তর সহ61 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ18 ব্যর্থতার কারণ অতিরিক্ত ফরম্যাটিং সহ3 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ API ত্রুটি সহ1 ব্যর্থতার কারণ টাইমআউট সহ1

210/210

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ স্কোর	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#34	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.055 প্রতিক্রিয়া সময় (গড়) 2.14s
#35	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 7.26s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.267 প্রতিক্রিয়া সময় (গড়) 16.1s
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.405 প্রতিক্রিয়া সময় (গড়) 7.54s
#38	GLM 5.2 medium	Z.ai	9.9	7.8	$0.222	2/2	7.90s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.222 প্রতিক্রিয়া সময় (গড়) 7.90s
#39	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.676 প্রতিক্রিয়া সময় (গড়) 1.43s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $2.057 প্রতিক্রিয়া সময় (গড়) 2.61s
#41	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $2.077 প্রতিক্রিয়া সময় (গড়) 2.78s
#42	GLM 5 medium	Z.ai	10.0	7.7	$0.307	2/2	7.25s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.307 প্রতিক্রিয়া সময় (গড়) 7.25s
#43	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $3.059 প্রতিক্রিয়া সময় (গড়) 2.43s
#44	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.017 প্রতিক্রিয়া সময় (গড়) 1.79s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 15.4s
#47	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.286 প্রতিক্রিয়া সময় (গড়) 6.14s
#48	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.097 প্রতিক্রিয়া সময় (গড়) 12.4s
#49	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 5.38s

নির্দেশনা অনুসরণ র‌্যাঙ্কিং

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ স্কোর অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল