ডেটা পার্সিং ও নিষ্কাশন x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডেটা পার্সিং ও নিষ্কাশন এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Granite 4.1 8B 2

ব্যর্থতার কারণ

ভুল উত্তর41 API ত্রুটি14 কোন উত্তর নেই8 অতিরিক্ত ফরম্যাটিং6 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

36/36

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 575ms
#189	Mercury 2 none	Inception	1	7.3	$0.030	1/2	667ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.030 প্রতিক্রিয়া সময় (গড়) 667ms
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 714ms
#195	Elephant Alpha medium	Openrouter	1	6.5	$0.000	1/2	979ms
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 979ms
#193	Elephant Alpha none	Openrouter	1	6.5	$0.000	1/2	1.04s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.04s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 1.11s
#180	GPT-5.4 Nano none	OpenAI	1	6.5	$0.041	1/2	1.11s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 1.11s
#166	Qwen3 Coder Next none	Qwen	1	6.5	$0.025	1/2	1.32s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 1.32s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.42s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 1.77s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 1.98s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 2.06s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $2.077 প্রতিক্রিয়া সময় (গড়) 2.27s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.454 প্রতিক্রিয়া সময় (গড়) 2.29s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	2.72s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 2.72s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডেটা পার্সিং ও নিষ্কাশন: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল