ডেটা পার্সিং ও নিষ্কাশন x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডেটা পার্সিং ও নিষ্কাশন এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

LongCat 2.0 1

ব্যর্থতার কারণ

ভুল উত্তর41 API ত্রুটি14 কোন উত্তর নেই8 অতিরিক্ত ফরম্যাটিং6 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

36/36

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.082 প্রতিক্রিয়া সময় (গড়) 6.33s
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 21.4s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 45.9s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 7.48s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.007 প্রতিক্রিয়া সময় (গড়) 575ms
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.547 প্রতিক্রিয়া সময় (গড়) 9.33s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 1.42s
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.001 প্রতিক্রিয়া সময় (গড়) 714ms
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.931 প্রতিক্রিয়া সময় (গড়) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $2.077 প্রতিক্রিয়া সময় (গড়) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.166 প্রতিক্রিয়া সময় (গড়) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.454 প্রতিক্রিয়া সময় (গড়) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.093 প্রতিক্রিয়া সময় (গড়) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.467 প্রতিক্রিয়া সময় (গড়) 4.70s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডেটা পার্সিং ও নিষ্কাশন: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল