ڈیٹا پارسنگ اور استخراج x غلط جواب درجہ بندی

دیکھیں کہ ڈیٹا پارسنگ اور استخراج میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

GPT-5 Nano 2

ناکامی کی وجوہات

غلط جواب41 API خرابی14 کوئی جواب نہیں8 اضافی فارمیٹنگ6 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

36/36

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 17.2s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 1.98s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	3.59s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.077 ردِعمل کا وقت (اوسط) 3.59s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	3.65s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 3.65s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 2.06s
#155	Kimi K2.5 none	Moonshot AI	1	7.3	$0.127	1/2	42.1s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.127 ردِعمل کا وقت (اوسط) 42.1s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	6.5	$0.041	1/2	2.82s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 2.82s
#166	Qwen3 Coder Next none	Qwen	1	6.5	$0.025	1/2	1.32s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 1.32s
#172	MiniMax M2.7 medium	Minimax	1	6.3	$0.163	1/2	21.9s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 21.9s
#173	DeepSeek V3.2 none	DeepSeek	1	6.3	$0.054	1/2	9.42s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 9.42s
#176	GLM 4.7 Flash none	Z.ai	1	7.3	$0.016	1/2	4.82s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 4.82s
#178	Ling-2.6-flash none	Inclusionai	1	6.5	$0.002	1/2	8.48s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 8.48s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 45.9s
#180	GPT-5.4 Nano none	OpenAI	1	6.5	$0.041	1/2	1.11s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 1.11s
#187	Qwen3 Coder Next medium	Qwen	1	6.5	$0.032	1/2	81.8s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 81.8s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈیٹا پارسنگ اور استخراج: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز