নির্দেশনা অনুসরণ x ভুল উত্তর র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

North Mini Code 1

ব্যর্থতার কারণ

ভুল উত্তর61 নির্দেশনা অনুসরণ করা হয়নি18 অতিরিক্ত ফরম্যাটিং3 কোন উত্তর নেই2 API ত্রুটি1 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

61/61

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 12.8s
#146	Owl Alpha medium	Openrouter	1	6.5	$0.000	1/2	10.2s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 10.2s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 8.81s
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 7.78s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 7.49s
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.535 প্রতিক্রিয়া সময় (গড়) 7.47s
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.478 প্রতিক্রিয়া সময় (গড়) 7.38s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 6.96s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 6.39s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 5.36s
#157	Mimo V2 Omni none	Xiaomi	1	6.5	$0.021	1/2	4.26s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 4.26s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 4.12s
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.166 প্রতিক্রিয়া সময় (গড়) 2.97s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.035 প্রতিক্রিয়া সময় (গড়) 2.84s

1 2 3 4 5

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল