ডোমেইন-নির্দিষ্ট x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

412

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 3

ব্যর্থতার কারণ

ভুল উত্তর412 টাইমআউট43 অতিরিক্ত ফরম্যাটিং17 কোন উত্তর নেই8 API ত্রুটি7 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

198/198

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	3	2.9	$0.317	0/3	53.1s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.317 প্রতিক্রিয়া সময় (গড়) 53.1s
#71	Qwen3.7 Plus none	Qwen	3	3.0	$0.106	0/3	868ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	3	2.9	$1.046	0/3	63.4s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $1.046 প্রতিক্রিয়া সময় (গড়) 63.4s
#78	Mercury 2 medium	Inception	3	2.9	$0.093	0/3	6.48s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.467 প্রতিক্রিয়া সময় (গড়) 29.0s
#83	GPT-5.6 Sol none	OpenAI	3	3.6	$0.524	0/3	1.43s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.524 প্রতিক্রিয়া সময় (গড়) 1.43s
#85	Qwen3.6 Flash medium	Qwen	3	3.5	$0.738	0/3	14.6s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.738 প্রতিক্রিয়া সময় (গড়) 14.6s
#87	GPT-5.5 none	OpenAI	3	2.9	$0.544	0/3	1.31s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.544 প্রতিক্রিয়া সময় (গড়) 1.31s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	3	3.6	$0.476	0/3	21.6s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.476 প্রতিক্রিয়া সময় (গড়) 21.6s
#99	Qwen3.6 27B medium	Qwen	3	2.9	$0.779	0/3	73.4s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.779 প্রতিক্রিয়া সময় (গড়) 73.4s
#102	Laguna XS 2.1 medium	Poolside	3	2.9	$0.068	0/3	65.7s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 65.7s
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 540ms
#108	Ring-2.6-1T medium	Inclusionai	3	3.5	$0.103	0/3	64.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 64.9s
#111	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 1.72s
#116	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.066 প্রতিক্রিয়া সময় (গড়) 1.33s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডোমেইন-নির্দিষ্ট: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল