ডোমেইন-নির্দিষ্ট x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

421

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 3

ব্যর্থতার কারণ

ভুল উত্তর421 টাইমআউট43 অতিরিক্ত ফরম্যাটিং17 কোন উত্তর নেই8 API ত্রুটি7 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

202/202

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.147 প্রতিক্রিয়া সময় (গড়) 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $5.599 প্রতিক্রিয়া সময় (গড়) 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.033 প্রতিক্রিয়া সময় (গড়) 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.166 প্রতিক্রিয়া সময় (গড়) 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.33s

←

1 9 10 11 14

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডোমেইন-নির্দিষ্ট: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল