ہدایات کی پیروی ماڈل درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

اوسط ہدایات کی پیروی اسکور

8.5

بہترین ماڈل

Laguna XS 2.1 3.8

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ61 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ18 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ3 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ2 ناکامی کی وجہ API خرابی کے ساتھ1 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ1

210/210

درجہ	ماڈل	کمپنی	ہدایات کی پیروی اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#160	Laguna XS 2.1 none	Poolside	3.8	5.3	$0.008	0/2	364ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 364ms
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 12.8s
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 822ms
#201	Granite 4.1 8B none	IBM Granite	3.6	4.0	$0.007	0/2	344ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 344ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/2	685ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 685ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	0/2	541ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 541ms
#16	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 6.31s
#24	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 5.42s
#27	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 8.73s
#60	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 1.96s
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 929ms
#74	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.535 ردِعمل کا وقت (اوسط) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 4.12s

1 2 14

→

ہدایات کی پیروی درجہ بندی

ماڈلز فلٹر کریں

ہدایات کی پیروی اسکور کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز