নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Step 3.5 Flash 3

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 11.6s
#27	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 11.5s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 10.8s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.002 প্রতিক্রিয়া সময় (গড়) 10.7s
#158	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 10.7s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
মোট টেস্ট 18 ভুল টেস্ট 10 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 10.3s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 10.1s
#154	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
মোট টেস্ট 21 ভুল টেস্ট 14 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 9.88s
#137	Grok 4.20 Beta medium	X AI	1	6.0	$0.750	14/18	9.75s
মোট টেস্ট 18 ভুল টেস্ট 4 মোট খরচ $0.750 প্রতিক্রিয়া সময় (গড়) 9.75s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
মোট টেস্ট 18 ভুল টেস্ট 10 মোট খরচ $5.599 প্রতিক্রিয়া সময় (গড়) 9.69s
#193	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 9.61s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.1	$0.584	14/22	9.48s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.584 প্রতিক্রিয়া সময় (গড়) 9.48s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.128	12/22	9.34s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.128 প্রতিক্রিয়া সময় (গড়) 9.34s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 9.15s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 9.12s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল