ہدایات کی پیروی x ہدایات پر عمل نہیں کیا درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 1

ناکامی کی وجوہات

غلط جواب61 ہدایات پر عمل نہیں کیا18 اضافی فارمیٹنگ3 کوئی جواب نہیں2 API خرابی1 ٹائم آؤٹ1

زمرے

پہیلی حل کرنا90 عمومی ذہانت78 اینٹی اے آئی چالیں33 ہدایات کی پیروی18 کوڈنگ16 ٹول کالنگ8 مشترکہ1 ڈومین مخصوص1

18/18

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 344ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 541ms
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 621ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 685ms
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 822ms
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 1.15s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 1.33s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	1.37s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.37s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 2.04s
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 4.63s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 4.78s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 4.99s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 5.42s
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 6.31s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.050 ردِعمل کا وقت (اوسط) 6.97s

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی: ہدایات پر عمل نہیں کیا

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز