ہدایات کی پیروی ماڈل درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

اوسط ہدایات کی پیروی اسکور

8.6

بہترین ماڈل

Laguna XS 2.1 3.8

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ61 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ19 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ3 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ2 ناکامی کی وجہ API خرابی کے ساتھ1 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ1

216/216

درجہ	ماڈل	کمپنی	ہدایات کی پیروی اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#205	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 13.0s
#206	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 857ms
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 5.75s
#211	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 439ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.37s
#216	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 752ms
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.831 ردِعمل کا وقت (اوسط) 2.77s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $1.785 ردِعمل کا وقت (اوسط) 3.94s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.742 ردِعمل کا وقت (اوسط) 4.04s
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $1.976 ردِعمل کا وقت (اوسط) 3.35s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 2.27s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	2/2	2.05s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.517 ردِعمل کا وقت (اوسط) 2.05s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $1.316 ردِعمل کا وقت (اوسط) 2.50s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	2.73s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $1.234 ردِعمل کا وقت (اوسط) 2.73s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $1.253 ردِعمل کا وقت (اوسط) 3.74s

ہدایات کی پیروی درجہ بندی

ماڈلز فلٹر کریں

ہدایات کی پیروی اسکور کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز