সমন্বিত x ভুল উত্তর র‌্যাঙ্কিং

দেখুন সমন্বিত এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

ব্যর্থতার কারণ

অবৈধ টুল কল91 ভুল উত্তর68 কোন উত্তর নেই29 API ত্রুটি26 টাইমআউট5 অতিরিক্ত ফরম্যাটিং1 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

63/63

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#133	Gemini 3 PRO Preview medium	Google	1	1.5	$0.385	0/1	10.4s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.385 প্রতিক্রিয়া সময় (গড়) 10.4s
#136	GPT-5.4 Mini none	OpenAI	1	6.5	$0.095	1/2	6.22s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 6.22s
#138	Kimi K2.6 none	Moonshot AI	1	3.0	$0.184	0/2	77.8s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.184 প্রতিক্রিয়া সময় (গড়) 77.8s
#141	GLM 5 none	Z.ai	1	1.5	$0.041	0/1	4.98s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 4.98s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.2	$0.247	0/2	129.3s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.247 প্রতিক্রিয়া সময় (গড়) 129.3s
#145	GLM 5V Turbo none	Z.ai	1	1.5	$0.052	0/1	6.51s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 6.51s
#146	Owl Alpha medium	Openrouter	1	1.5	$0.000	0/1	10.0s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 10.0s
#147	Mimo V2 PRO none	Xiaomi	1	1.5	$0.045	0/1	6.58s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.045 প্রতিক্রিয়া সময় (গড়) 6.58s
#148	Owl Alpha none	Openrouter	1	1.5	$0.000	0/1	21.7s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 21.7s
#155	Kimi K2.5 none	Moonshot AI	1	2.8	$0.127	0/2	61.0s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.127 প্রতিক্রিয়া সময় (গড়) 61.0s
#156	Gemma 4 26B A4B none	Google	1	3.0	$0.015	0/2	37.2s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.015 প্রতিক্রিয়া সময় (গড়) 37.2s
#157	Mimo V2 Omni none	Xiaomi	1	1.5	$0.021	0/1	5.96s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.021 প্রতিক্রিয়া সময় (গড়) 5.96s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.142 প্রতিক্রিয়া সময় (গড়) 6.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 10.4s
#162	Ling-2.6-1T none	Inclusionai	1	6.5	$0.016	1/2	23.8s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 23.8s

←

1 2 3 4 5

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সমন্বিত: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল