ہدایات کی پیروی ماڈل درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

اوسط ہدایات کی پیروی اسکور

8.6

بہترین ماڈل

Laguna XS 2.1 3.8

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ61 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ19 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ3 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ2 ناکامی کی وجہ API خرابی کے ساتھ1 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ1

216/216

درجہ	ماڈل	کمپنی	ہدایات کی پیروی اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#177	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 30.7s
#180	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 1.11s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 3.40s
#182	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 888ms
#183	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 804ms
#186	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 784ms
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 4.63s
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 7.49s
#195	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 551ms
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 621ms
#197	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 649ms
#198	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 683ms
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 2.97s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 2.82s
#203	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 445ms

ہدایات کی پیروی درجہ بندی

ماڈلز فلٹر کریں

ہدایات کی پیروی اسکور کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز