নির্দেশনা অনুসরণ মডেল র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: মেট্রিক ↑.

দেখানো মডেল

গড় নির্দেশনা অনুসরণ স্কোর

8.5

সেরা মডেল

Grok 4.1 Fast 3.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ ভুল উত্তর সহ61 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ18 ব্যর্থতার কারণ অতিরিক্ত ফরম্যাটিং সহ3 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ API ত্রুটি সহ1 ব্যর্থতার কারণ টাইমআউট সহ1

210/210

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ স্কোর	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 683ms
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 13.0s
#112	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 2.58s
#148	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.63s
#154	MiMo-V2.5-Pro none	Xiaomi	6.4	5.5	$0.068	1/2	1.03s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 1.03s
#162	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 5.36s
#196	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.82s
#27	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.694 প্রতিক্রিয়া সময় (গড়) 7.81s
#74	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.535 প্রতিক্রিয়া সময় (গড়) 7.47s
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.300 প্রতিক্রিয়া সময় (গড়) 893ms
#89	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.085 প্রতিক্রিয়া সময় (গড়) 1.58s
#16	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 6.31s
#60	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.478 প্রতিক্রিয়া সময় (গড়) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.661 প্রতিক্রিয়া সময় (গড়) 1.96s
#91	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 6.39s

নির্দেশনা অনুসরণ র‌্যাঙ্কিং

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ স্কোর অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল