ডেটা পার্সিং ও নিষ্কাশন x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডেটা পার্সিং ও নিষ্কাশন এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3 Coder Next 1

ব্যর্থতার কারণ

ভুল উত্তর41 API ত্রুটি14 কোন উত্তর নেই8 অতিরিক্ত ফরম্যাটিং6 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

36/36

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#187	Qwen3 Coder Next medium	Qwen	1	6.5	$0.032	1/2	81.8s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 81.8s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 45.9s
#155	Kimi K2.5 none	Moonshot AI	1	7.3	$0.127	1/2	42.1s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.127 প্রতিক্রিয়া সময় (গড়) 42.1s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.103 প্রতিক্রিয়া সময় (গড়) 37.4s
#172	MiniMax M2.7 medium	Minimax	1	6.3	$0.163	1/2	21.9s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 21.9s
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.114 প্রতিক্রিয়া সময় (গড়) 21.4s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.187 প্রতিক্রিয়া সময় (গড়) 18.8s
#188	Cobuddy medium	Baidu	1	6.3	$0.000	1/2	17.4s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.000 প্রতিক্রিয়া সময় (গড়) 17.4s
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.333 প্রতিক্রিয়া সময় (গড়) 17.2s
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $1.931 প্রতিক্রিয়া সময় (গড়) 12.3s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.469 প্রতিক্রিয়া সময় (গড়) 11.0s
#173	DeepSeek V3.2 none	DeepSeek	1	6.3	$0.054	1/2	9.42s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 9.42s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.547 প্রতিক্রিয়া সময় (গড়) 9.33s
#178	Ling-2.6-flash none	Inclusionai	1	6.5	$0.002	1/2	8.48s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.002 প্রতিক্রিয়া সময় (গড়) 8.48s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.340 প্রতিক্রিয়া সময় (গড়) 7.48s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডেটা পার্সিং ও নিষ্কাশন: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল