নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↑.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

LFM2-24B-A2B 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 9.15s
#180	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 1.99s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 18.3s
#178	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 41.3s
#177	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 29.9s
#176	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
মোট টেস্ট 21 ভুল টেস্ট 15 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 2.82s
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 19.2s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 4.62s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 10.8s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 9.12s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 1.20s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.147 প্রতিক্রিয়া সময় (গড়) 3.50s
#169	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
মোট টেস্ট 16 ভুল টেস্ট 3 মোট খরচ $2.310 প্রতিক্রিয়া সময় (গড়) 68.1s
#168	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 8.58s
#167	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
মোট টেস্ট 22 ভুল টেস্ট 18 মোট খরচ $0.061 প্রতিক্রিয়া সময় (গড়) 5.52s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল