সমন্বিত x ভুল উত্তর র‌্যাঙ্কিং

দেখুন সমন্বিত এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

ব্যর্থতার কারণ

অবৈধ টুল কল91 ভুল উত্তর68 কোন উত্তর নেই29 API ত্রুটি26 টাইমআউট5 অতিরিক্ত ফরম্যাটিং1 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

63/63

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#164	Inkling none	Thinkingmachines	1	2.9	$0.147	0/2	25.7s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.147 প্রতিক্রিয়া সময় (গড়) 25.7s
#166	Qwen3 Coder Next none	Qwen	1	3.0	$0.025	0/2	30.9s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 30.9s
#167	Mistral Small 4 medium	Mistral	1	3.0	$0.096	0/2	32.4s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.096 প্রতিক্রিয়া সময় (গড়) 32.4s
#168	MiMo-V2.5 none	Xiaomi	1	3.0	$0.025	0/2	28.9s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 28.9s
#170	GLM 5 Turbo none	Z.ai	1	1.5	$0.047	0/1	4.89s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 4.89s
#174	GPT-4o-mini none	OpenAI	1	3.0	$0.010	0/2	6.32s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.010 প্রতিক্রিয়া সময় (গড়) 6.32s
#180	GPT-5.4 Nano none	OpenAI	1	3.0	$0.041	0/2	14.7s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 14.7s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.067 প্রতিক্রিয়া সময় (গড়) 73.0s
#183	Trinity Large Preview none	Arcee AI	1	1.5	$0.008	0/1	8.91s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 8.91s
#187	Qwen3 Coder Next medium	Qwen	1	3.0	$0.032	0/2	14.6s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 14.6s
#193	Elephant Alpha none	Openrouter	1	1.5	$0.000	0/1	3.81s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 3.81s
#195	Elephant Alpha medium	Openrouter	1	1.5	$0.000	0/1	3.70s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 3.70s
#196	Hunter Alpha none	OpenRouter	1	1.5	$0.000	0/1	15.2s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 15.2s
#198	Laguna Xs.2 medium	Poolside	1	1.5	$0.015	0/1	15.9s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 15.9s
#199	Hy3 preview none	Tencent	1	1.5	$0.003	0/1	35.8s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.003 প্রতিক্রিয়া সময় (গড়) 35.8s

←

1 2 3 4 5

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সমন্বিত: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল