নির্দেশনা অনুসরণ মডেল র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

গড় নির্দেশনা অনুসরণ স্কোর

8.6

সেরা মডেল

Gemini 3.6 Flash 9.9

ব্যর্থতার কারণ

ব্যর্থতার কারণ ভুল উত্তর সহ61 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ19 ব্যর্থতার কারণ অতিরিক্ত ফরম্যাটিং সহ3 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ API ত্রুটি সহ1 ব্যর্থতার কারণ টাইমআউট সহ1

216/216

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ স্কোর	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.082 প্রতিক্রিয়া সময় (গড়) 1.80s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 2.57s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.646 প্রতিক্রিয়া সময় (গড়) 1.49s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.621 প্রতিক্রিয়া সময় (গড়) 1.52s
#112	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	2/2	1.13s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 1.13s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 1.67s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 11.8s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.333 প্রতিক্রিয়া সময় (গড়) 3.36s
#116	Gemma 4 31B medium	Google	10.0	6.3	$0.107	2/2	12.8s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.107 প্রতিক্রিয়া সময় (গড়) 12.8s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.043 প্রতিক্রিয়া সময় (গড়) 4.28s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	2/2	63.5s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.139 প্রতিক্রিয়া সময় (গড়) 63.5s
#122	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	2/2	1.06s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.066 প্রতিক্রিয়া সময় (গড়) 1.06s
#124	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 590ms
#125	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	2/2	24.4s
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.837 প্রতিক্রিয়া সময় (গড়) 24.4s
#126	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
মোট টেস্ট 2 ভুল টেস্ট 0 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 932ms

নির্দেশনা অনুসরণ র‌্যাঙ্কিং

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ স্কোর অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল