নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

245

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.5 Flash 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে18 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.117 প্রতিক্রিয়া সময় (গড়) 4.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 4.91s
#71	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 12.1s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.078 প্রতিক্রিয়া সময় (গড়) 68.6s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.101 প্রতিক্রিয়া সময় (গড়) 92.5s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.467 প্রতিক্রিয়া সময় (গড়) 24.0s
#83	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
মোট টেস্ট 22 ভুল টেস্ট 11 মোট খরচ $0.524 প্রতিক্রিয়া সময় (গড়) 2.16s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.738 প্রতিক্রিয়া সময় (গড়) 44.7s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $0.300 প্রতিক্রিয়া সময় (গড়) 2.65s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
মোট টেস্ট 22 ভুল টেস্ট 9 মোট খরচ $0.746 প্রতিক্রিয়া সময় (গড়) 58.1s
#91	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 100.3s
#93	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
মোট টেস্ট 21 ভুল টেস্ট 10 মোট খরচ $0.457 প্রতিক্রিয়া সময় (গড়) 23.1s
#96	GLM 5.2 none	Z.ai	1	6.6	$0.151	12/22	9.34s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $0.151 প্রতিক্রিয়া সময় (গড়) 9.34s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 106.3s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
মোট টেস্ট 21 ভুল টেস্ট 7 মোট খরচ $0.018 প্রতিক্রিয়া সময় (গড়) 16.3s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল