ডোমেইন-নির্দিষ্ট x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

421

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 3

ব্যর্থতার কারণ

ভুল উত্তর421 টাইমআউট43 অতিরিক্ত ফরম্যাটিং17 কোন উত্তর নেই8 API ত্রুটি7 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

202/202

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 489ms
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.971 প্রতিক্রিয়া সময় (গড়) 29.1s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.316 প্রতিক্রিয়া সময় (গড়) 47.9s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.234 প্রতিক্রিয়া সময় (গড়) 39.5s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.253 প্রতিক্রিয়া সময় (গড়) 28.1s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.116 প্রতিক্রিয়া সময় (গড়) 24.9s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $4.137 প্রতিক্রিয়া সময় (গড়) 164.1s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $1.707 প্রতিক্রিয়া সময় (গড়) 332.1s
#16	GPT-5.3-Codex medium	OpenAI	2	5.9	$0.920	1/3	64.3s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.920 প্রতিক্রিয়া সময় (গড়) 64.3s
#17	Claude Opus 4.8 medium	Anthropic	2	5.3	$1.931	1/3	14.6s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.931 প্রতিক্রিয়া সময় (গড়) 14.6s
#20	Claude Fable 5 medium	Anthropic	2	5.3	$3.478	1/3	53.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $3.478 প্রতিক্রিয়া সময় (গড়) 53.4s
#21	GPT-5.4 medium	OpenAI	2	5.3	$1.533	1/3	74.3s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.533 প্রতিক্রিয়া সময় (গড়) 74.3s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.643 প্রতিক্রিয়া সময় (গড়) 37.3s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.237 প্রতিক্রিয়া সময় (গড়) 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $1.694 প্রতিক্রিয়া সময় (গড়) 67.4s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডোমেইন-নির্দিষ্ট: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল