ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

421

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 3

ناکامی کی وجوہات

غلط جواب421 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

202/202

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.454 ردِعمل کا وقت (اوسط) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.600 ردِعمل کا وقت (اوسط) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.207 ردِعمل کا وقت (اوسط) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.128 ردِعمل کا وقت (اوسط) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 1.52s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز