ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

LFM2-24B-A2B 1

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#145	GPT-5.4 none	OpenAI	1	5.8	$0.397	7/22	2.07s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.397 ردِعمل کا وقت (اوسط) 2.07s
#144	Kimi K2.6 none	Moonshot AI	3	5.8	$0.184	7/22	19.6s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.184 ردِعمل کا وقت (اوسط) 19.6s
#142	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 1.53s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 41.2s
#138	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 1.65s
#137	Grok 4.20 Beta medium	X AI	1	6.0	$0.750	14/18	9.75s
کل ٹیسٹس 18 غلط ٹیسٹس 4 کل لاگت $0.750 ردِعمل کا وقت (اوسط) 9.75s
#136	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 174.2s
#135	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 3.87s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 54.9s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.7s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 13.6s
#130	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 3.74s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 5.15s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 1.75s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 21.9s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز