ہدایات کی پیروی ماڈل درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط ہدایات کی پیروی اسکور

8.5

بہترین ماڈل

Granite 4.1 8B 3.6

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ61 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ18 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ3 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ2 ناکامی کی وجہ API خرابی کے ساتھ1 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ1

210/210

درجہ	ماڈل	کمپنی	ہدایات کی پیروی اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 344ms
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 364ms
#165	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 380ms
#205	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 439ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 445ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 513ms
#169	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 514ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 541ms
#189	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 551ms
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 590ms
#190	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 621ms
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 649ms
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 683ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 685ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 690ms

1 2 14

→

ہدایات کی پیروی درجہ بندی

ماڈلز فلٹر کریں

ہدایات کی پیروی اسکور کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز