ডোমেইন-নির্দিষ্ট x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

421

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 3

ব্যর্থতার কারণ

ভুল উত্তর421 টাইমআউট43 অতিরিক্ত ফরম্যাটিং17 কোন উত্তর নেই8 API ত্রুটি7 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

202/202

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#144	Kimi K2.6 none	Moonshot AI	2	5.3	$0.184	1/3	1.48s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 1.48s
#145	GPT-5.4 none	OpenAI	2	5.3	$0.397	1/3	1.07s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.397 প্রতিক্রিয়া সময় (গড়) 1.07s
#146	Nemotron 3 Super medium	NVIDIA	2	2.9	$0.055	0/3	16.2s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.055 প্রতিক্রিয়া সময় (গড়) 16.2s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 465ms
#151	GLM 5V Turbo none	Z.ai	2	5.3	$0.052	1/3	2.09s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 2.09s
#152	Owl Alpha medium	Openrouter	2	5.3	$0.000	1/3	8.58s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 8.58s
#153	Mimo V2 PRO none	Xiaomi	2	5.3	$0.045	1/3	1.78s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 1.78s
#154	Owl Alpha none	Openrouter	2	5.3	$0.000	1/3	3.00s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 3.00s
#156	DeepSeek V4 Flash none	DeepSeek	2	5.3	$0.042	1/3	19.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.042 প্রতিক্রিয়া সময় (গড়) 19.7s
#159	Hy3 preview low	Tencent	2	5.9	$0.015	1/3	40.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 40.4s
#160	MiMo-V2.5-Pro none	Xiaomi	2	5.3	$0.068	1/3	877ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.068 প্রতিক্রিয়া সময় (গড়) 877ms
#161	Kimi K2.5 none	Moonshot AI	2	5.3	$0.127	1/3	4.38s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.127 প্রতিক্রিয়া সময় (গড়) 4.38s
#163	Mimo V2 Omni none	Xiaomi	2	5.3	$0.021	1/3	2.10s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 2.10s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	1/3	127.6s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $2.310 প্রতিক্রিয়া সময় (গড়) 127.6s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডোমেইন-নির্দিষ্ট: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল