ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

412

سب سے زیادہ متاثر ماڈل

Grok 4.5 2

ناکامی کی وجوہات

غلط جواب412 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

198/198

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#12	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.707 ردِعمل کا وقت (اوسط) 332.1s
#16	Muse Spark 1.1 medium	Meta	3	3.5	$1.357	0/3	71.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 71.4s
#19	Qwen3.6 Max Preview medium	Qwen	3	2.9	$1.143	0/3	95.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.143 ردِعمل کا وقت (اوسط) 95.9s
#20	Grok 4.5 low	X AI	3	3.0	$0.935	0/3	72.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.935 ردِعمل کا وقت (اوسط) 72.6s
#22	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.928 ردِعمل کا وقت (اوسط) 198.9s
#24	Muse Spark 1.1 low	Meta	3	2.9	$0.647	0/3	29.7s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 29.7s
#26	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 44.6s
#27	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 67.4s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 74.0s
#36	Qwen3.7 Plus medium	Qwen	3	3.6	$0.267	0/3	45.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.267 ردِعمل کا وقت (اوسط) 45.3s
#37	Qwen3.6 Plus medium	Qwen	3	2.9	$0.405	0/3	29.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.405 ردِعمل کا وقت (اوسط) 29.6s
#38	GLM 5.2 medium	Z.ai	1	4.1	$0.222	0/3	45.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.222 ردِعمل کا وقت (اوسط) 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 0ms
#42	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 0ms
#43	Claude Opus 4.6 medium	Anthropic	1	3.0	$3.059	0/3	83.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $3.059 ردِعمل کا وقت (اوسط) 83.4s

1 2 14

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز