ডেটা পার্সিং ও নিষ্কাশন x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডেটা পার্সিং ও নিষ্কাশন এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Claude Opus 4.8 1

ব্যর্থতার কারণ

ভুল উত্তর41 API ত্রুটি14 কোন উত্তর নেই8 অতিরিক্ত ফরম্যাটিং6 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

36/36

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.931 প্রতিক্রিয়া সময় (গড়) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $2.077 প্রতিক্রিয়া সময় (গড়) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.454 প্রতিক্রিয়া সময় (গড়) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.467 প্রতিক্রিয়া সময় (গড়) 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 18.8s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.082 প্রতিক্রিয়া সময় (গড়) 6.33s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 37.4s
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.333 প্রতিক্রিয়া সময় (গড়) 17.2s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 1.98s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	3.59s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.077 প্রতিক্রিয়া সময় (গড়) 3.59s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	3.65s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.048 প্রতিক্রিয়া সময় (গড়) 3.65s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 2.06s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডেটা পার্সিং ও নিষ্কাশন: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল