ہدایات کی پیروی x غلط جواب درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 1

ناکامی کی وجوہات

غلط جواب61 ہدایات پر عمل نہیں کیا18 اضافی فارمیٹنگ3 کوئی جواب نہیں2 API خرابی1 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

61/61

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 344ms
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 364ms
#165	Mistral Small 4 none	Mistral	1	6.5	$0.022	1/2	380ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 380ms
#205	Laguna Xs.2 none	Poolside	1	6.5	$0.004	1/2	439ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 439ms
#197	Grok 4.20 none	X AI	1	6.3	$0.057	1/2	445ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 445ms
#142	Qwen3.5-122B-A10B none	Qwen	1	6.3	$0.247	1/2	513ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 513ms
#169	Qwen3.5-9B none	Qwen	1	6.5	$0.021	1/2	514ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 514ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 541ms
#189	Mercury 2 none	Inception	1	6.5	$0.030	1/2	551ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 551ms
#191	Grok 4.20 Beta none	X AI	1	6.3	$0.087	1/2	649ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 649ms
#192	Laguna M.1 none	Poolside	1	6.3	$0.009	1/2	683ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 683ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 685ms
#156	Gemma 4 26B A4B none	Google	1	6.3	$0.015	1/2	690ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 690ms
#136	GPT-5.4 Mini none	OpenAI	1	6.3	$0.095	1/2	728ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 728ms
#168	MiMo-V2.5 none	Xiaomi	1	6.5	$0.025	1/2	751ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 751ms

1 2 3 4 5

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز