ডোমেইন-নির্দিষ্ট x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

421

সবচেয়ে বেশি প্রভাবিত মডেল

Muse Spark 1.1 3

ব্যর্থতার কারণ

ভুল উত্তর421 টাইমআউট43 অতিরিক্ত ফরম্যাটিং17 কোন উত্তর নেই8 API ত্রুটি7 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট421 অ্যান্টি-এআই কৌশল293 কোডিং259 ধাঁধা সমাধান204 সাধারণ জ্ঞান172 সমন্বিত69 Sadharon Buddhimotta62 নির্দেশনা অনুসরণ61 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

202/202

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.584 প্রতিক্রিয়া সময় (গড়) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.604 প্রতিক্রিয়া সময় (গড়) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $1.055 প্রতিক্রিয়া সময় (গড়) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.234 প্রতিক্রিয়া সময় (গড়) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.676 প্রতিক্রিয়া সময় (গড়) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $2.077 প্রতিক্রিয়া সময় (গড়) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.307 প্রতিক্রিয়া সময় (গড়) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.200 প্রতিক্রিয়া সময় (গড়) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.323 প্রতিক্রিয়া সময় (গড়) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.352 প্রতিক্রিয়া সময় (গড়) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.138 প্রতিক্রিয়া সময় (গড়) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.519 প্রতিক্রিয়া সময় (গড়) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
মোট টেস্ট 3 ভুল টেস্ট 3 মোট খরচ $0.478 প্রতিক্রিয়া সময় (গড়) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
মোট টেস্ট 3 ভুল টেস্ট 2 মোট খরচ $0.177 প্রতিক্রিয়া সময় (গড়) 8.05s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডোমেইন-নির্দিষ্ট: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল