ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

245

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 2

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں18 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

140/140

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#120	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.86s
#174	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 1.99s
#139	GPT-5.4 none	OpenAI	1	5.8	$0.397	7/22	2.07s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.397 ردِعمل کا وقت (اوسط) 2.07s
#83	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 2.16s
#147	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 2.27s
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 2.44s
#180	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 2.57s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 2.65s
#78	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 2.72s
#200	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 2.76s
#170	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
کل ٹیسٹس 21 غلط ٹیسٹس 15 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 2.82s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 2.98s
#145	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 2.99s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 3.50s
#124	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 3.74s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز