ভুল উত্তর ব্যর্থতা র‌্যাঙ্কিং

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

মোট ব্যর্থতা

1585

সবচেয়ে বেশি প্রভাবিত মডেল

বিভাগ

ডোমেইন-নির্দিষ্ট বিভাগে421 অ্যান্টি-এআই কৌশল বিভাগে293 কোডিং বিভাগে259 ধাঁধা সমাধান বিভাগে204 সাধারণ জ্ঞান বিভাগে172 সমন্বিত বিভাগে69 Sadharon Buddhimotta বিভাগে62 নির্দেশনা অনুসরণ বিভাগে61 ডেটা পার্সিং ও নিষ্কাশন বিভাগে41 টুল কলিং বিভাগে3

215/215

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
মোট টেস্ট 21 ভুল টেস্ট 11 মোট খরচ $0.683 প্রতিক্রিয়া সময় (গড়) 41.2s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
মোট টেস্ট 22 ভুল টেস্ট 14 মোট খরচ $0.055 প্রতিক্রিয়া সময় (গড়) 52.0s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
মোট টেস্ট 22 ভুল টেস্ট 13 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 55.1s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
মোট টেস্ট 22 ভুল টেস্ট 4 মোট খরচ $0.971 প্রতিক্রিয়া সময় (গড়) 8.79s
#7	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
মোট টেস্ট 22 ভুল টেস্ট 4 মোট খরচ $1.316 প্রতিক্রিয়া সময় (গড়) 11.4s
#8	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
মোট টেস্ট 22 ভুল টেস্ট 4 মোট খরচ $1.234 প্রতিক্রিয়া সময় (গড়) 11.7s
#13	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
মোট টেস্ট 22 ভুল টেস্ট 4 মোট খরচ $4.137 প্রতিক্রিয়া সময় (গড়) 38.4s
#16	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.920 প্রতিক্রিয়া সময় (গড়) 17.0s
#19	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.357 প্রতিক্রিয়া সময় (গড়) 25.0s
#26	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $0.922 প্রতিক্রিয়া সময় (গড়) 12.5s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
মোট টেস্ট 22 ভুল টেস্ট 10 মোট খরচ $1.694 প্রতিক্রিয়া সময় (গড়) 31.5s
#32	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $1.006 প্রতিক্রিয়া সময় (গড়) 64.2s
#36	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
মোট টেস্ট 22 ভুল টেস্ট 7 মোট খরচ $0.391 প্রতিক্রিয়া সময় (গড়) 16.2s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
মোট টেস্ট 22 ভুল টেস্ট 8 মোট খরচ $2.057 প্রতিক্রিয়া সময় (গড়) 25.9s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
মোট টেস্ট 22 ভুল টেস্ট 6 মোট খরচ $2.077 প্রতিক্রিয়া সময় (গড়) 12.7s

ভুল উত্তর ব্যর্থতা

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল