ڈیٹا پارسنگ اور استخراج x غلط جواب درجہ بندی

دیکھیں کہ ڈیٹا پارسنگ اور استخراج میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Claude Opus 4.8 1

ناکامی کی وجوہات

غلط جواب41 API خرابی14 کوئی جواب نہیں8 اضافی فارمیٹنگ6 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

36/36

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.931 ردِعمل کا وقت (اوسط) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.454 ردِعمل کا وقت (اوسط) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 18.8s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 6.33s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 37.4s
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 17.2s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 1.98s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	3.59s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.077 ردِعمل کا وقت (اوسط) 3.59s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	3.65s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 3.65s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 2.06s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈیٹا پارسنگ اور استخراج: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز