অ্যান্টি-এআই কৌশল x ভুল উত্তর র‌্যাঙ্কিং

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

293

সবচেয়ে বেশি প্রভাবিত মডেল

Mistral Small 4 4

ব্যর্থতার কারণ

ভুল উত্তর293 নির্দেশনা অনুসরণ করা হয়নি33 অতিরিক্ত ফরম্যাটিং20 API ত্রুটি14 কোন উত্তর নেই4 টাইমআউট4

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#165	Mistral Small 4 none	Mistral	4	3.4	$0.022	0/4	395ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 395ms
#210	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 471ms
#189	Mercury 2 none	Inception	4	3.0	$0.030	0/4	483ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 483ms
#197	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.057 প্রতিক্রিয়া সময় (গড়) 501ms
#205	Laguna Xs.2 none	Poolside	2	3.0	$0.004	0/4	534ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.004 প্রতিক্রিয়া সময় (গড়) 534ms
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 582ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	4.8	$0.000	1/4	584ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 584ms
#191	Grok 4.20 Beta none	X AI	4	4.0	$0.087	0/4	597ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 597ms
#192	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.009 প্রতিক্রিয়া সময় (গড়) 705ms
#160	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 755ms
#103	Qwen3.5-27B none	Qwen	3	4.8	$0.090	1/4	788ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 788ms
#201	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 844ms
#88	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.300 প্রতিক্রিয়া সময় (গড়) 892ms
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.142 প্রতিক্রিয়া সময় (গড়) 901ms
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 929ms

1 2 10

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল