নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

মোট ব্যর্থতা

246

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3.5 Flash 1

বিভাগ

ধাঁধা সমাধান বিভাগে90 Sadharon Buddhimotta বিভাগে78 অ্যান্টি-এআই কৌশল বিভাগে33 নির্দেশনা অনুসরণ বিভাগে19 কোডিং বিভাগে16 টুল কলিং বিভাগে8 ডোমেইন-নির্দিষ্ট বিভাগে1 সমন্বিত বিভাগে1

141/141

র‍্যাঙ্ক	মডেল	কোম্পানি	নির্দেশনা অনুসরণ করা হয়নি সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
মোট টেস্ট 19 ভুল টেস্ট 10 মোট খরচ $0.069 প্রতিক্রিয়া সময় (গড়) 23.8s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
মোট টেস্ট 19 ভুল টেস্ট 10 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 14.7s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 79.1s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.600 প্রতিক্রিয়া সময় (গড়) 99.0s
#82	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 11.6s
#96	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 100.3s
#105	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 106.3s
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 5.34s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 1.86s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
মোট টেস্ট 22 ভুল টেস্ট 12 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 5.15s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
মোট টেস্ট 18 ভুল টেস্ট 10 মোট খরচ $5.599 প্রতিক্রিয়া সময় (গড়) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
মোট টেস্ট 18 ভুল টেস্ট 10 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 10.3s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 148.7s

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

মডেল ফিল্টার করুন

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল