অ্যান্টি-এআই কৌশল x ভুল উত্তর র‌্যাঙ্কিং

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

293

সবচেয়ে বেশি প্রভাবিত মডেল

Seed-2.0-Lite 4

ব্যর্থতার কারণ

ভুল উত্তর293 নির্দেশনা অনুসরণ করা হয়নি33 অতিরিক্ত ফরম্যাটিং20 API ত্রুটি14 কোন উত্তর নেই4 টাইমআউট4

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	5.3	$0.067	1/4	2.68s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.067 প্রতিক্রিয়া সময় (গড়) 2.68s
#193	Qwen3 Coder Next medium	Qwen	3	3.5	$0.032	0/4	8.64s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 8.64s
#198	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 705ms
#203	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 501ms
#209	Grok 4.1 Fast none	X AI	3	3.2	$0.008	0/4	1.07s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 1.07s
#216	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 471ms
#27	Muse Spark 1.1 low	Meta	2	7.9	$0.647	2/4	4.36s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.647 প্রতিক্রিয়া সময় (গড়) 4.36s
#50	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 25.7s
#51	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/4	14.9s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.286 প্রতিক্রিয়া সময় (গড়) 14.9s
#56	Kimi K2.7 Code medium	Moonshot AI	2	7.3	$0.740	2/4	11.6s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.740 প্রতিক্রিয়া সময় (গড়) 11.6s
#63	Qwen3.7 Max none	Qwen	2	6.5	$0.197	2/4	1.08s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.197 প্রতিক্রিয়া সময় (গড়) 1.08s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.9	$0.387	2/4	4.20s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.387 প্রতিক্রিয়া সময় (গড়) 4.20s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2	7.0	$0.482	2/4	3.17s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.482 প্রতিক্রিয়া সময় (গড়) 3.17s
#75	Qwen3.7 Plus none	Qwen	2	6.5	$0.106	2/4	1.38s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 1.38s
#86	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 4.02s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল