ہدایات کی پیروی ماڈل درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.

دکھائے گئے ماڈلز

اوسط ہدایات کی پیروی اسکور

8.6

بہترین ماڈل

Grok 4.1 Fast 3.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ61 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ19 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ3 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ2 ناکامی کی وجہ API خرابی کے ساتھ1 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ1

216/216

درجہ	ماڈل	کمپنی	ہدایات کی پیروی اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#177	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 30.7s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 3.40s
#182	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 888ms
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 4.63s
#195	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 551ms
#206	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 857ms
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 5.75s
#211	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 439ms
#165	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 1.23s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.055 ردِعمل کا وقت (اوسط) 6.97s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.37s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 5.42s
#149	Gemini 3.1 Flash Lite high	Google	7.3	5.6	$2.044	1/2	23.3s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $2.044 ردِعمل کا وقت (اوسط) 23.3s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 1.38s
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 621ms

ہدایات کی پیروی درجہ بندی

ماڈلز فلٹر کریں

ہدایات کی پیروی اسکور کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز