ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

421

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 3

ناکامی کی وجوہات

غلط جواب421 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

202/202

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 489ms
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 29.1s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.316 ردِعمل کا وقت (اوسط) 47.9s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.234 ردِعمل کا وقت (اوسط) 39.5s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.253 ردِعمل کا وقت (اوسط) 28.1s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.116 ردِعمل کا وقت (اوسط) 24.9s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $4.137 ردِعمل کا وقت (اوسط) 164.1s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.707 ردِعمل کا وقت (اوسط) 332.1s
#16	GPT-5.3-Codex medium	OpenAI	2	5.9	$0.920	1/3	64.3s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 64.3s
#17	Claude Opus 4.8 medium	Anthropic	2	5.3	$1.931	1/3	14.6s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.931 ردِعمل کا وقت (اوسط) 14.6s
#20	Claude Fable 5 medium	Anthropic	2	5.3	$3.478	1/3	53.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $3.478 ردِعمل کا وقت (اوسط) 53.4s
#21	GPT-5.4 medium	OpenAI	2	5.3	$1.533	1/3	74.3s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 74.3s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.643 ردِعمل کا وقت (اوسط) 37.3s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 67.4s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز