অ্যান্টি-এআই কৌশল x ভুল উত্তর র‌্যাঙ্কিং

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

293

সবচেয়ে বেশি প্রভাবিত মডেল

Seed-2.0-Lite 4

ব্যর্থতার কারণ

ভুল উত্তর293 নির্দেশনা অনুসরণ করা হয়নি33 অতিরিক্ত ফরম্যাটিং20 API ত্রুটি14 কোন উত্তর নেই4 টাইমআউট4

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#165	Mistral Small 4 none	Mistral	4	3.4	$0.022	0/4	395ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 395ms
#168	MiMo-V2.5 none	Xiaomi	4	3.5	$0.025	0/4	2.19s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 2.19s
#169	Qwen3.5-9B none	Qwen	4	3.1	$0.021	0/4	1.71s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 1.71s
#170	GLM 5 Turbo none	Z.ai	4	3.0	$0.047	0/4	2.84s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 2.84s
#180	GPT-5.4 Nano none	OpenAI	4	3.5	$0.041	0/4	1.18s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 1.18s
#183	Trinity Large Preview none	Arcee AI	4	3.1	$0.008	0/4	2.07s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 2.07s
#189	Mercury 2 none	Inception	4	3.0	$0.030	0/4	483ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 483ms
#191	Grok 4.20 Beta none	X AI	4	4.0	$0.087	0/4	597ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 597ms
#196	Hunter Alpha none	OpenRouter	4	3.5	$0.000	0/4	3.81s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 3.81s
#200	MiMo-V2-Flash none	Xiaomi	4	3.2	$0.025	0/4	1.19s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 1.19s
#98	Qwen3.6 Max Preview none	Qwen	3	5.2	$0.231	1/4	2.63s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.231 প্রতিক্রিয়া সময় (গড়) 2.63s
#103	Qwen3.5-27B none	Qwen	3	4.8	$0.090	1/4	788ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 788ms
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.8	$0.073	1/4	1.91s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 1.91s
#111	LongCat 2.0 none	Meituan	3	4.8	$0.044	1/4	2.87s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 2.87s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	3	4.8	$0.122	1/4	1.88s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 1.88s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল