নির্দেশনা অনুসরণ মডেল র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

গড় নির্দেশনা অনুসরণ স্কোর

8.5

সেরা মডেল

Gemini 3 Flash Preview 10.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ ভুল উত্তর সহ61 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ18 ব্যর্থতার কারণ অতিরিক্ত ফরম্যাটিং সহ3 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ API ত্রুটি সহ1 ব্যর্থতার কারণ টাইমআউট সহ1

210/210

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ স্কোর	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.742 প্রতিক্রিয়া সময় (গড়) 4.04s
#2	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.976 প্রতিক্রিয়া সময় (গড়) 3.35s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.971 প্রতিক্রিয়া সময় (গড়) 2.27s
#4	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.316 প্রতিক্রিয়া সময় (গড়) 2.50s
#5	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	2.73s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.234 প্রতিক্রিয়া সময় (গড়) 2.73s
#6	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.253 প্রতিক্রিয়া সময় (গড়) 3.74s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	2/2	9.56s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.361 প্রতিক্রিয়া সময় (গড়) 9.56s
#8	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	2/2	7.46s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.116 প্রতিক্রিয়া সময় (গড়) 7.46s
#9	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.642 প্রতিক্রিয়া সময় (গড়) 2.70s
#10	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $4.137 প্রতিক্রিয়া সময় (গড়) 3.36s
#11	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.433 প্রতিক্রিয়া সময় (গড়) 1.86s
#12	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.707 প্রতিক্রিয়া সময় (গড়) 6.23s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	3.04s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.920 প্রতিক্রিয়া সময় (গড়) 3.04s
#14	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	2/2	3.32s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.931 প্রতিক্রিয়া সময় (গড়) 3.32s
#15	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	1.57s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $1.477 প্রতিক্রিয়া সময় (গড়) 1.57s

1 2 14

→

নির্দেশনা অনুসরণ র‌্যাঙ্কিং

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ স্কোর অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল