ডেটা পার্সিং ও নিষ্কাশন x ভুল উত্তর র‌্যাঙ্কিং

দেখুন ডেটা পার্সিং ও নিষ্কাশন এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

মোট ব্যর্থতা

সবচেয়ে বেশি প্রভাবিত মডেল

GPT-5 Nano 2

ব্যর্থতার কারণ

ভুল উত্তর41 API ত্রুটি14 কোন উত্তর নেই8 অতিরিক্ত ফরম্যাটিং6 টাইমআউট1

বিভাগ

ডোমেইন-নির্দিষ্ট412 অ্যান্টি-এআই কৌশল293 কোডিং252 ধাঁধা সমাধান201 সাধারণ জ্ঞান168 সমন্বিত68 নির্দেশনা অনুসরণ61 Sadharon Buddhimotta59 ডেটা পার্সিং ও নিষ্কাশন41 টুল কলিং3

36/36

র‍্যাঙ্ক	মডেল	কোম্পানি	ভুল উত্তর সংখ্যা	বিভাগ স্কোর	মোট খরচ	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.333 প্রতিক্রিয়া সময় (গড়) 17.2s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.019 প্রতিক্রিয়া সময় (গড়) 1.98s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	3.59s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.077 প্রতিক্রিয়া সময় (গড়) 3.59s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	3.65s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.048 প্রতিক্রিয়া সময় (গড়) 3.65s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.087 প্রতিক্রিয়া সময় (গড়) 2.06s
#155	Kimi K2.5 none	Moonshot AI	1	7.3	$0.127	1/2	42.1s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.127 প্রতিক্রিয়া সময় (গড়) 42.1s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	6.5	$0.041	1/2	2.82s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 2.82s
#166	Qwen3 Coder Next none	Qwen	1	6.5	$0.025	1/2	1.32s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.025 প্রতিক্রিয়া সময় (গড়) 1.32s
#172	MiniMax M2.7 medium	Minimax	1	6.3	$0.163	1/2	21.9s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.163 প্রতিক্রিয়া সময় (গড়) 21.9s
#173	DeepSeek V3.2 none	DeepSeek	1	6.3	$0.054	1/2	9.42s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.054 প্রতিক্রিয়া সময় (গড়) 9.42s
#176	GLM 4.7 Flash none	Z.ai	1	7.3	$0.016	1/2	4.82s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.016 প্রতিক্রিয়া সময় (গড়) 4.82s
#178	Ling-2.6-flash none	Inclusionai	1	6.5	$0.002	1/2	8.48s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.002 প্রতিক্রিয়া সময় (গড়) 8.48s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
মোট টেস্ট 2 ভুল টেস্ট 2 মোট খরচ $0.026 প্রতিক্রিয়া সময় (গড়) 45.9s
#180	GPT-5.4 Nano none	OpenAI	1	6.5	$0.041	1/2	1.11s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.041 প্রতিক্রিয়া সময় (গড়) 1.11s
#187	Qwen3 Coder Next medium	Qwen	1	6.5	$0.032	1/2	81.8s
মোট টেস্ট 2 ভুল টেস্ট 1 মোট খরচ $0.032 প্রতিক্রিয়া সময় (গড়) 81.8s

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল

ডেটা পার্সিং ও নিষ্কাশন: ভুল উত্তর

মডেল ফিল্টার করুন

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল