নির্দেশনা অনুসরণ x ভুল উত্তর র‌্যাঙ্কিং

দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

ব্যর্থতার কারণ

ভুল উত্তর61 নির্দেশনা অনুসরণ করা হয়নি18 অতিরিক্ত ফরম্যাটিং3 কোন উত্তর নেই2 API ত্রুটি1 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

61/61

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.478 প্রতিক্রিয়া সময় (গড়) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.5	$0.661	1/2	1.96s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.661 প্রতিক্রিয়া সময় (গড়) 1.96s
#71	Qwen3.7 Plus none	Qwen	1	6.3	$0.106	1/2	929ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 929ms
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.535 প্রতিক্রিয়া সময় (গড়) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 4.12s
#87	GPT-5.5 none	OpenAI	1	6.2	$0.544	1/2	1.15s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.544 প্রতিক্রিয়া সময় (গড়) 1.15s
#88	Gemini 3.5 Flash minimal	Google	1	6.4	$0.300	1/2	893ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.300 প্রতিক্রিয়া সময় (গড়) 893ms
#89	Gemini 3 Flash Preview none	Google	1	6.4	$0.085	1/2	1.58s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.085 প্রতিক্রিয়া সময় (গড়) 1.58s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 6.39s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 6.96s
#103	Qwen3.5-27B none	Qwen	1	6.3	$0.090	1/2	1.03s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 1.03s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	2.82s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 2.82s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.035 প্রতিক্রিয়া সময় (গড়) 2.84s
#124	Qwen3.6 Flash none	Qwen	1	6.3	$0.062	1/2	1.10s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 1.10s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 8.81s

1 2 3 4 5

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল