সমন্বিত x ভুল উত্তর র‌্যাঙ্কিং

দেখুন সমন্বিত এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

ব্যর্থতার কারণ

অবৈধ টুল কল91 ভুল উত্তর68 কোন উত্তর নেই29 API ত্রুটি26 টাইমআউট5 অতিরিক্ত ফরম্যাটিং1 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

63/63

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#61	Gemini 3 Flash Preview low	Google	2	3.0	$0.177	0/2	10.2s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.177 প্রতিক্রিয়া সময় (গড়) 10.2s
#139	GPT-5.4 none	OpenAI	2	3.0	$0.397	0/2	9.26s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.397 প্রতিক্রিয়া সময় (গড়) 9.26s
#165	Mistral Small 4 none	Mistral	2	3.0	$0.022	0/2	7.44s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.022 প্রতিক্রিয়া সময় (গড়) 7.44s
#177	Nemotron 3 Super none	NVIDIA	2	3.0	$0.008	0/2	18.2s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.008 প্রতিক্রিয়া সময় (গড়) 18.2s
#189	Mercury 2 none	Inception	2	3.0	$0.030	0/2	2.56s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 2.56s
#20	Grok 4.5 low	X AI	1	6.5	$0.935	1/2	12.8s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.935 প্রতিক্রিয়া সময় (গড়) 12.8s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.3	$0.751	1/2	66.0s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.751 প্রতিক্রিয়া সময় (গড়) 66.0s
#59	Qwen3.7 Max none	Qwen	1	6.5	$0.197	1/2	37.2s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.197 প্রতিক্রিয়া সময় (গড়) 37.2s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	1/2	8.37s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.524 প্রতিক্রিয়া সময় (গড়) 8.37s
#87	GPT-5.5 none	OpenAI	1	6.5	$0.544	1/2	8.90s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.544 প্রতিক্রিয়া সময় (গড়) 8.90s
#89	Gemini 3 Flash Preview none	Google	1	3.8	$0.085	0/2	12.4s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.085 প্রতিক্রিয়া সময় (গড়) 12.4s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.476 প্রতিক্রিয়া সময় (গড়) 183.1s
#98	Qwen3.6 Max Preview none	Qwen	1	6.5	$0.231	1/2	61.6s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.231 প্রতিক্রিয়া সময় (গড়) 61.6s
#103	Qwen3.5-27B none	Qwen	1	6.4	$0.090	1/2	39.4s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.090 প্রতিক্রিয়া সময় (গড়) 39.4s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.646 প্রতিক্রিয়া সময় (গড়) 160.6s

1 2 3 4 5

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সমন্বিত: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল