নির্দেশনা অনুসরণ x ভুল উত্তর র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

LongCat 2.0 1

ব্যর্থতার কারণ

ভুল উত্তর61 নির্দেশনা অনুসরণ করা হয়নি18 অতিরিক্ত ফরম্যাটিং3 কোন উত্তর নেই2 API ত্রুটি1 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

61/61

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.478 প্রতিক্রিয়া সময় (গড়) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.5	$0.661	1/2	1.96s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.661 প্রতিক্রিয়া সময় (গড়) 1.96s
#71	Qwen3.7 Plus none	Qwen	1	6.3	$0.106	1/2	929ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 929ms
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.535 প্রতিক্রিয়া সময় (গড়) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 4.12s
#87	GPT-5.5 none	OpenAI	1	6.2	$0.544	1/2	1.15s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.544 প্রতিক্রিয়া সময় (গড়) 1.15s
#88	Gemini 3.5 Flash minimal	Google	1	6.4	$0.300	1/2	893ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.300 প্রতিক্রিয়া সময় (গড়) 893ms
#89	Gemini 3 Flash Preview none	Google	1	6.4	$0.085	1/2	1.58s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.085 প্রতিক্রিয়া সময় (গড়) 1.58s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 6.39s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 6.96s
#103	Qwen3.5-27B none	Qwen	1	6.3	$0.090	1/2	1.03s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 1.03s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	2.82s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 2.82s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.035 প্রতিক্রিয়া সময় (গড়) 2.84s
#124	Qwen3.6 Flash none	Qwen	1	6.3	$0.062	1/2	1.10s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 1.10s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 8.81s

1 2 3 4 5

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল