অ্যান্টি-এআই কৌশল x অতিরিক্ত ফরম্যাটিং র‌্যাঙ্কিং

দেখুন অ্যান্টি-এআই কৌশল এ কোন AI মডেলগুলোর অতিরিক্ত ফরম্যাটিং হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

North Mini Code 1

ব্যর্থতার কারণ

ভুল উত্তর293 নির্দেশনা অনুসরণ করা হয়নি33 অতিরিক্ত ফরম্যাটিং20 API ত্রুটি14 কোন উত্তর নেই4 টাইমআউট4

বিভাগ

অ্যান্টি-এআই কৌশল20 কোডিং18 ডোমেইন-নির্দিষ্ট17 ধাঁধা সমাধান8 ডেটা পার্সিং ও নিষ্কাশন6 নির্দেশনা অনুসরণ3 সমন্বিত1

14/14

র‍্যাঙ্ক	মডেল	কোম্পানি	অতিরিক্ত ফরম্যাটিং সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#137	North Mini Code medium	Cohere	1	8.4	$0.000	3/4	64.8s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 64.8s
#171	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 22.5s
#58	Qwen3.5-27B medium	Qwen	1	8.7	$1.627	3/4	19.8s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $1.627 প্রতিক্রিয়া সময় (গড়) 19.8s
#113	MiMo-V2-Flash medium	Xiaomi	1	8.1	$0.043	3/4	15.8s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $0.043 প্রতিক্রিয়া সময় (গড়) 15.8s
#173	DeepSeek V3.2 none	DeepSeek	2	3.2	$0.054	0/4	9.35s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 9.35s
#43	Claude Opus 4.6 medium	Anthropic	2	6.4	$3.059	2/4	7.45s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $3.059 প্রতিক্রিয়া সময় (গড়) 7.45s
#48	Grok Build 0.1 medium	X AI	1	8.3	$1.097	3/4	7.43s
মোট টেস্ট 4 ভুল টেস্ট 1 মোট খরচ $1.097 প্রতিক্রিয়া সময় (গড়) 7.43s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 4.02s
#112	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/4	3.60s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 3.60s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.9	$5.599	2/4	3.46s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $5.599 প্রতিক্রিয়া সময় (গড়) 3.46s
#66	Claude Opus 4.8 none	Anthropic	2	6.5	$1.166	2/4	3.40s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 3.40s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
মোট টেস্ট 4 ভুল টেস্ট 4 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 3.31s
#40	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
মোট টেস্ট 4 ভুল টেস্ট 2 মোট খরচ $2.057 প্রতিক্রিয়া সময় (গড়) 2.98s
#63	Claude Sonnet 4.6 none	Anthropic	2	4.8	$0.661	1/4	2.94s
মোট টেস্ট 4 ভুল টেস্ট 3 মোট খরচ $0.661 প্রতিক্রিয়া সময় (গড়) 2.94s

মডেল ফিল্টার করুন

অতিরিক্ত ফরম্যাটিং সংখ্যা অনুযায়ী শীর্ষ মডেল

অতিরিক্ত ফরম্যাটিং সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

অ্যান্টি-এআই কৌশল: অতিরিক্ত ফরম্যাটিং

মডেল ফিল্টার করুন

অতিরিক্ত ফরম্যাটিং সংখ্যা অনুযায়ী শীর্ষ মডেল

অতিরিক্ত ফরম্যাটিং সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল