নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↑.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

LFM2-24B-A2B 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#166	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.55s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 10.1s
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 7.64s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
মোট টেস্ট 21 ভুল টেস্ট 13 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 2.44s
#160	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 4.12s
#158	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
মোট টেস্ট 22 ভুল টেস্ট 15 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 10.7s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 36.8s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.048 প্রতিক্রিয়া সময় (গড়) 8.42s
#154	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
মোট টেস্ট 21 ভুল টেস্ট 14 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 9.88s
#153	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
মোট টেস্ট 21 ভুল টেস্ট 14 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 2.27s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
মোট টেস্ট 21 ভুল টেস্ট 13 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 11.9s
#151	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
মোট টেস্ট 21 ভুল টেস্ট 13 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 2.99s
#149	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
মোট টেস্ট 18 ভুল টেস্ট 8 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 62.0s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
মোট টেস্ট 22 ভুল টেস্ট 16 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 12.9s
#146	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.055	8/22	52.0s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.055 প্রতিক্রিয়া সময় (গড়) 52.0s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল