নির্দেশনা অনুসরণ মডেল র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

গড় নির্দেশনা অনুসরণ স্কোর

8.6

সেরা মডেল

Gemini 3.6 Flash 9.9

ব্যর্থতার কারণ

ব্যর্থতার কারণ ভুল উত্তর সহ61 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ19 ব্যর্থতার কারণ অতিরিক্ত ফরম্যাটিং সহ3 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ API ত্রুটি সহ1 ব্যর্থতার কারণ টাইমআউট সহ1

216/216

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ স্কোর	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.115 প্রতিক্রিয়া সময় (গড়) 1.91s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 1.37s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.454 প্রতিক্রিয়া সময় (গড়) 1.58s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.036 প্রতিক্রিয়া সময় (গড়) 12.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.482 প্রতিক্রিয়া সময় (গড়) 2.67s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	2/2	20.2s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.317 প্রতিক্রিয়া সময় (গড়) 20.2s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.046 প্রতিক্রিয়া সময় (গড়) 9.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 18.6s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.777 প্রতিক্রিয়া সময় (গড়) 4.26s
#80	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	2/2	35.8s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.078 প্রতিক্রিয়া সময় (গড়) 35.8s
#81	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	2/2	92.5s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.600 প্রতিক্রিয়া সময় (গড়) 92.5s
#82	Mercury 2 medium	Inception	10.0	7.0	$0.093	2/2	1.07s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 1.07s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.079 প্রতিক্রিয়া সময় (গড়) 3.38s
#84	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.101 প্রতিক্রিয়া সময় (গড়) 17.5s

নির্দেশনা অনুসরণ র‌্যাঙ্কিং

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ স্কোর অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল