নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.5 Flash 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#142	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 1.53s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 12.9s
#160	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 4.12s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.147 প্রতিক্রিয়া সময় (গড়) 3.50s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 18.3s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 9.15s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.002 প্রতিক্রিয়া সময় (গড়) 10.7s
#211	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
মোট টেস্ট 19 ভুল টেস্ট 14 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 806ms
#199	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
মোট টেস্ট 21 ভুল টেস্ট 16 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.22s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 36.8s
#166	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.55s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 1.20s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 9.12s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 10.8s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 4.62s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল