নির্দেশনা অনুসরণ মডেল র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

গড় নির্দেশনা অনুসরণ স্কোর

8.6

সেরা মডেল

Kimi K2.5 10.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ ভুল উত্তর সহ61 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ19 ব্যর্থতার কারণ অতিরিক্ত ফরম্যাটিং সহ3 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ API ত্রুটি সহ1 ব্যর্থতার কারণ টাইমআউট সহ1

216/216

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ স্কোর	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 2.82s
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.935 প্রতিক্রিয়া সময় (গড়) 2.80s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $2.077 প্রতিক্রিয়া সময় (গড়) 2.78s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 2.77s
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.831 প্রতিক্রিয়া সময় (গড়) 2.77s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	2.73s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.234 প্রতিক্রিয়া সময় (গড়) 2.73s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.642 প্রতিক্রিয়া সময় (গড়) 2.70s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.127 প্রতিক্রিয়া সময় (গড়) 2.67s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.482 প্রতিক্রিয়া সময় (গড়) 2.67s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.63s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.643 প্রতিক্রিয়া সময় (গড়) 2.62s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.476 প্রতিক্রিয়া সময় (গড়) 2.61s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $2.057 প্রতিক্রিয়া সময় (গড়) 2.61s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 2.59s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 2.58s

নির্দেশনা অনুসরণ র‌্যাঙ্কিং

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ স্কোর অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল