নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

245

সবচেয়ে বেশি প্রভাবিত মডেল

Step 3.5 Flash 3

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে18 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#108	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.078 প্রতিক্রিয়া সময় (গড়) 68.6s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
মোট টেস্ট 22 ভুল টেস্ট 17 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
মোট টেস্ট 16 ভুল টেস্ট 3 মোট খরচ $2.310 প্রতিক্রিয়া সময় (গড়) 68.1s
#28	Inkling high	Thinkingmachines	1	8.0	$1.006	15/22	64.2s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.006 প্রতিক্রিয়া সময় (গড়) 64.2s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.970 প্রতিক্রিয়া সময় (গড়) 62.7s
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
মোট টেস্ট 18 ভুল টেস্ট 8 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 62.0s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.746 প্রতিক্রিয়া সময় (গড়) 58.1s
#179	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 55.1s
#128	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 54.9s
#140	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.050	8/22	52.0s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.050 প্রতিক্রিয়া সময় (গড়) 52.0s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 49.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 48.5s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 47.4s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.738 প্রতিক্রিয়া সময় (গড়) 44.7s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল