অ্যান্টি-এআই কৌশল x ভুল উত্তর র‌্যাঙ্কিং

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

293

সবচেয়ে বেশি প্রভাবিত মডেল

Seed-2.0-Lite 4

ব্যর্থতার কারণ

ভুল উত্তর293 নির্দেশনা অনুসরণ করা হয়নি33 অতিরিক্ত ফরম্যাটিং20 API ত্রুটি14 কোন উত্তর নেই4 টাইমআউট4

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

140/140

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.544 প্রতিক্রিয়া সময় (গড়) 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.300 প্রতিক্রিয়া সময় (গড়) 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.621 প্রতিক্রিয়া সময় (গড়) 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.046 প্রতিক্রিয়া সময় (গড়) 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.166 প্রতিক্রিয়া সময় (গড়) 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 844ms

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল