ہدایات کی پیروی ماڈل درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

اوسط ہدایات کی پیروی اسکور

8.5

بہترین ماڈل

Granite 4.1 8B 3.6

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ61 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ18 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ3 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ2 ناکامی کی وجہ API خرابی کے ساتھ1 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ1

210/210

درجہ	ماڈل	کمپنی	ہدایات کی پیروی اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 728ms
#168	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 751ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 752ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 784ms
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 804ms
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 809ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 822ms
#200	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 857ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 859ms
#176	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 888ms
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 893ms
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 929ms
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 932ms
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.197 ردِعمل کا وقت (اوسط) 943ms
#195	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 987ms

ہدایات کی پیروی درجہ بندی

ماڈلز فلٹر کریں

ہدایات کی پیروی اسکور کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز