ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

250

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں23 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

145/145

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.738 ردِعمل کا وقت (اوسط) 44.7s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.124	12/22	9.34s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.124 ردِعمل کا وقت (اوسط) 9.34s
#107	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 32.2s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 1.58s
#120	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.139 ردِعمل کا وقت (اوسط) 84.8s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 23.1s
#136	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 174.2s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 24.0s
#87	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 2.16s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 68.7s
#219	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
کل ٹیسٹس 12 غلط ٹیسٹس 6 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 39.0s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 41.2s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز