সমন্বিত x ভুল উত্তর র‌্যাঙ্কিং

দেখুন সমন্বিত এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

ব্যর্থতার কারণ

অবৈধ টুল কল91 ভুল উত্তর68 কোন উত্তর নেই29 API ত্রুটি26 টাইমআউট5 অতিরিক্ত ফরম্যাটিং1 নির্দেশনা অনুসরণ করা হয়নি1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

63/63

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.621 প্রতিক্রিয়া সময় (গড়) 161.2s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.052 প্রতিক্রিয়া সময় (গড়) 6.23s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.5	$0.073	1/2	64.8s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 64.8s
#109	Mimo V2 PRO medium	Xiaomi	1	2.3	$0.333	0/1	64.7s
মোট টেস্ট 1 ভুল টেস্ট 1 মোট খরচ $0.333 প্রতিক্রিয়া সময় (গড়) 64.7s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	28.4s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.044 প্রতিক্রিয়া সময় (গড়) 28.4s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.035 প্রতিক্রিয়া সময় (গড়) 30.0s
#116	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.066	0/2	25.6s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.066 প্রতিক্রিয়া সময় (গড়) 25.6s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.249 প্রতিক্রিয়া সময় (গড়) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.017 প্রতিক্রিয়া সময় (গড়) 61.2s
#120	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.047	0/2	7.75s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.047 প্রতিক্রিয়া সময় (গড়) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.046	0/2	9.49s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.046 প্রতিক্রিয়া সময় (গড়) 9.49s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.073 প্রতিক্রিয়া সময় (গড়) 243.6s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.4	$0.122	1/2	109.7s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.122 প্রতিক্রিয়া সময় (গড়) 109.7s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.8	$0.106	0/2	128.3s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.106 প্রতিক্রিয়া সময় (গড়) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.095 প্রতিক্রিয়া সময় (গড়) 21.1s

←

1 2 3 4 5

→

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

সমন্বিত: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল