ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

412

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 3

ناکامی کی وجوہات

غلط جواب412 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

198/198

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#16	Muse Spark 1.1 medium	Meta	3	3.5	$1.357	0/3	71.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 71.4s
#19	Qwen3.6 Max Preview medium	Qwen	3	2.9	$1.143	0/3	95.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.143 ردِعمل کا وقت (اوسط) 95.9s
#20	Grok 4.5 low	X AI	3	3.0	$0.935	0/3	72.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.935 ردِعمل کا وقت (اوسط) 72.6s
#22	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.928 ردِعمل کا وقت (اوسط) 198.9s
#24	Muse Spark 1.1 low	Meta	3	2.9	$0.647	0/3	29.7s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 29.7s
#36	Qwen3.7 Plus medium	Qwen	3	3.6	$0.267	0/3	45.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.267 ردِعمل کا وقت (اوسط) 45.3s
#37	Qwen3.6 Plus medium	Qwen	3	2.9	$0.405	0/3	29.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.405 ردِعمل کا وقت (اوسط) 29.6s
#45	DeepSeek V4 Flash high	DeepSeek	3	4.1	$0.042	0/3	100.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 100.3s
#51	Nemotron 3 Ultra medium	NVIDIA	3	3.5	$0.774	0/3	24.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.774 ردِعمل کا وقت (اوسط) 24.9s
#54	GPT-5.3 Chat none	OpenAI	3	3.5	$0.571	0/3	13.0s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.571 ردِعمل کا وقت (اوسط) 13.0s
#56	GPT-5.4 Mini medium	OpenAI	3	4.1	$0.756	0/3	65.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 65.3s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	3	4.1	$0.387	0/3	17.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.387 ردِعمل کا وقت (اوسط) 17.5s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3	3.0	$0.115	0/3	4.21s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.115 ردِعمل کا وقت (اوسط) 4.21s
#65	Gemini 3.1 Flash Lite medium	Google	3	2.9	$0.117	0/3	3.16s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.117 ردِعمل کا وقت (اوسط) 3.16s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	3	2.9	$0.482	0/3	35.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.482 ردِعمل کا وقت (اوسط) 35.3s

1 2 14

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز