ہدایات کی پیروی x غلط جواب درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

LongCat 2.0 1

ناکامی کی وجوہات

غلط جواب61 ہدایات پر عمل نہیں کیا18 اضافی فارمیٹنگ3 کوئی جواب نہیں2 API خرابی1 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

61/61

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#177	Nemotron 3 Super none	NVIDIA	1	6.3	$0.008	1/2	804ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 804ms
#180	GPT-5.4 Nano none	OpenAI	1	6.3	$0.041	1/2	784ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 784ms
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 822ms
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 7.49s
#189	Mercury 2 none	Inception	1	6.5	$0.030	1/2	551ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 551ms
#191	Grok 4.20 Beta none	X AI	1	6.3	$0.087	1/2	649ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 649ms
#192	Laguna M.1 none	Poolside	1	6.3	$0.009	1/2	683ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 683ms
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 2.97s
#196	Hunter Alpha none	OpenRouter	1	6.4	$0.000	1/2	2.82s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 2.82s
#197	Grok 4.20 none	X AI	1	6.3	$0.057	1/2	445ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 445ms
#200	MiMo-V2-Flash none	Xiaomi	1	6.5	$0.025	1/2	857ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 857ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 344ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 685ms
#205	Laguna Xs.2 none	Poolside	1	6.5	$0.004	1/2	439ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 439ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 541ms

←

1 2 3 4 5

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز