ڈیٹا پارسنگ اور استخراج x غلط جواب درجہ بندی

دیکھیں کہ ڈیٹا پارسنگ اور استخراج میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

GPT-5 Nano 2

ناکامی کی وجوہات

غلط جواب41 API خرابی14 کوئی جواب نہیں8 اضافی فارمیٹنگ6 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

36/36

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 21.4s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 7.48s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 575ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.42s
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 714ms
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.931 ردِعمل کا وقت (اوسط) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.454 ردِعمل کا وقت (اوسط) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 18.8s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 6.33s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 37.4s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈیٹا پارسنگ اور استخراج: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز