ہدایات کی پیروی ماڈل درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط ہدایات کی پیروی اسکور

8.6

بہترین ماڈل

Granite 4.1 8B 3.6

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ61 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ19 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ3 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ2 ناکامی کی وجہ API خرابی کے ساتھ1 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ1

216/216

درجہ	ماڈل	کمپنی	ہدایات کی پیروی اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.817 ردِعمل کا وقت (اوسط) 4.26s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 4.26s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.043 ردِعمل کا وقت (اوسط) 4.28s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 4.30s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 4.63s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 4.78s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.750 ردِعمل کا وقت (اوسط) 4.89s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 4.99s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 5.06s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 5.36s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.323 ردِعمل کا وقت (اوسط) 5.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.740 ردِعمل کا وقت (اوسط) 5.39s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 5.42s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 5.51s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 5.52s

←

1 9 10 11 15

→

ہدایات کی پیروی درجہ بندی

ماڈلز فلٹر کریں

ہدایات کی پیروی اسکور کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز