ہدایات کی پیروی ماڈل درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

اوسط ہدایات کی پیروی اسکور

8.5

بہترین ماڈل

Kimi K2.5 10.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ61 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ18 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ3 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ2 ناکامی کی وجہ API خرابی کے ساتھ1 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ1

210/210

درجہ	ماڈل	کمپنی	ہدایات کی پیروی اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#150	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.044	1/2	17.5s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 17.5s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	2/2	17.5s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 17.5s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 17.5s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.267 ردِعمل کا وقت (اوسط) 16.1s
#153	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 16.0s
#128	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 15.6s
#137	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 15.4s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 15.4s
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 13.0s
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 12.8s
#110	Gemma 4 31B medium	Google	10.0	6.3	$0.163	2/2	12.8s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 12.8s
#68	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $1.036 ردِعمل کا وقت (اوسط) 12.5s
#48	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 12.4s
#108	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 11.8s
#188	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 11.6s

ہدایات کی پیروی درجہ بندی

ماڈلز فلٹر کریں

ہدایات کی پیروی اسکور کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز