ڈیٹا پارسنگ اور استخراج x غلط جواب درجہ بندی

دیکھیں کہ ڈیٹا پارسنگ اور استخراج میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 2

ناکامی کی وجوہات

غلط جواب41 API خرابی14 کوئی جواب نہیں8 اضافی فارمیٹنگ6 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

36/36

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 575ms
#189	Mercury 2 none	Inception	1	7.3	$0.030	1/2	667ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 667ms
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 714ms
#195	Elephant Alpha medium	Openrouter	1	6.5	$0.000	1/2	979ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 979ms
#193	Elephant Alpha none	Openrouter	1	6.5	$0.000	1/2	1.04s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.04s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 1.11s
#180	GPT-5.4 Nano none	OpenAI	1	6.5	$0.041	1/2	1.11s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 1.11s
#166	Qwen3 Coder Next none	Qwen	1	6.5	$0.025	1/2	1.32s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 1.32s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.42s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 1.77s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 1.98s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 2.06s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 2.27s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.454 ردِعمل کا وقت (اوسط) 2.29s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	2.72s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 2.72s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈیٹا پارسنگ اور استخراج: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز