ہدایات کی پیروی ماڈل درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.

دکھائے گئے ماڈلز

اوسط ہدایات کی پیروی اسکور

8.6

بہترین ماڈل

Grok 4.1 Fast 3.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ61 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ19 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ3 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ2 ناکامی کی وجہ API خرابی کے ساتھ1 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ1

216/216

درجہ	ماڈل	کمپنی	ہدایات کی پیروی اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 2.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.740 ردِعمل کا وقت (اوسط) 5.39s
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.177 ردِعمل کا وقت (اوسط) 7.02s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.117 ردِعمل کا وقت (اوسط) 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 1.37s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.482 ردِعمل کا وقت (اوسط) 2.67s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 2.58s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 2.77s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 3.74s
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 1.80s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 3.36s
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 7.63s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 1.75s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 4.18s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.742 ردِعمل کا وقت (اوسط) 4.04s

←

1 9 10 11 15

→

ہدایات کی پیروی درجہ بندی

ماڈلز فلٹر کریں

ہدایات کی پیروی اسکور کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز