ডোমেইন-নির্দিষ্ট x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

412

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 3

ব্যর্থতার কারণ

ভুল উত্তর412 টাইমআউট43 অতিরিক্ত ফরম্যাটিং17 কোন উত্তর নেই8 API ত্রুটি7 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

198/198

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#117	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 10.0s
#120	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 1.02s
#121	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 50.9s
#122	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.046 প্রতিক্রিয়া সময় (গড়) 762ms
#136	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 937ms
#141	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 2.24s
#143	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $2.044 প্রতিক্রিয়া সময় (গড়) 139.9s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.048 প্রতিক্রিয়া সময় (গড়) 4.87s
#151	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.164 প্রতিক্রিয়া সময় (গড়) 1.99s
#156	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 2.49s
#159	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.142 প্রতিক্রিয়া সময় (গড়) 737ms
#161	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.061 প্রতিক্রিয়া সময় (গড়) 7.45s
#162	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 1.04s
#168	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 756ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 464ms

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডোমেইন-নির্দিষ্ট: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল