ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 4

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 5.34s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.86s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 5.15s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 23.8s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 14.7s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 41.2s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 24.0s
#87	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 2.16s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 68.7s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
کل ٹیسٹس 12 غلط ٹیسٹس 6 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 39.0s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 23.1s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز