নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↓.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.5 Flash 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#137	Grok 4.20 Beta medium	X AI	1	6.0	$0.750	14/18	9.75s
মোট টেস্ট 18 ভুল টেস্ট 4 মোট খরচ $0.750 প্রতিক্রিয়া সময় (গড়) 9.75s
#138	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.349 প্রতিক্রিয়া সময় (গড়) 1.65s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
মোট টেস্ট 21 ভুল টেস্ট 11 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 41.2s
#142	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 1.53s
#144	Kimi K2.6 none	Moonshot AI	3	5.8	$0.184	7/22	19.6s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 19.6s
#145	GPT-5.4 none	OpenAI	1	5.8	$0.397	7/22	2.07s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.397 প্রতিক্রিয়া সময় (গড়) 2.07s
#146	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.055	8/22	52.0s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.055 প্রতিক্রিয়া সময় (গড়) 52.0s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 12.9s
#149	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
মোট টেস্ট 18 ভুল টেস্ট 8 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 62.0s
#151	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
মোট টেস্ট 21 ভুল টেস্ট 13 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 2.99s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
মোট টেস্ট 21 ভুল টেস্ট 13 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 11.9s
#153	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
মোট টেস্ট 21 ভুল টেস্ট 14 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 2.27s
#154	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
মোট টেস্ট 21 ভুল টেস্ট 14 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 9.88s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.048 প্রতিক্রিয়া সময় (গড়) 8.42s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 36.8s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল