ডোমেইন-নির্দিষ্ট x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

421

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 3

ব্যর্থতার কারণ

ভুল উত্তর421 টাইমআউট43 অতিরিক্ত ফরম্যাটিং17 কোন উত্তর নেই8 API ত্রুটি7 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

202/202

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#112	Gemini 3.1 Flash Lite Preview none	Google	2	5.3	$0.052	1/3	942ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	2	5.3	$0.073	1/3	1.17s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 1.17s
#118	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/3	3.28s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.548 প্রতিক্রিয়া সময় (গড়) 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	2	5.9	$0.043	1/3	96.0s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.043 প্রতিক্রিয়া সময় (গড়) 96.0s
#124	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 495ms
#129	Inkling low	Thinkingmachines	2	5.3	$0.187	1/3	1.99s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 1.99s
#130	Qwen3.6 Flash none	Qwen	2	5.3	$0.062	1/3	1.11s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.062 প্রতিক্রিয়া সময় (গড়) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.3	$0.122	1/3	4.43s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	2	5.3	$0.095	1/3	698ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 698ms
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.108 প্রতিক্রিয়া সময় (গড়) 170.5s
#137	Grok 4.20 Beta medium	X AI	2	5.3	$0.750	1/3	21.3s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.750 প্রতিক্রিয়া সময় (গড়) 21.3s
#138	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	757ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.349 প্রতিক্রিয়া সময় (গড়) 757ms
#139	Gemini 3 PRO Preview medium	Google	2	5.3	$0.385	1/3	7.01s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.385 প্রতিক্রিয়া সময় (গড়) 7.01s
#141	Hy3 preview high	Tencent	2	5.3	$0.048	1/3	109.0s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.048 প্রতিক্রিয়া সময় (গড়) 109.0s
#143	North Mini Code medium	Cohere	2	5.3	$0.000	1/3	71.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 71.4s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডোমেইন-নির্দিষ্ট: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল