ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

421

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 3

ناکامی کی وجوہات

غلط جواب421 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

202/202

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 2.33s

←

1 9 10 11 14

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز