ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

MiniMax M2.7 5

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 19.2s
#176	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
کل ٹیسٹس 21 غلط ٹیسٹس 15 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 2.82s
#177	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 29.9s
#183	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 5.97s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 10.7s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 55.1s
#186	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 2.57s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 10.3s
#200	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 142.6s
#201	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
کل ٹیسٹس 21 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.27s
#202	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 4.70s
#206	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 2.76s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
کل ٹیسٹس 19 غلط ٹیسٹس 12 کل لاگت $0.547 ردِعمل کا وقت (اوسط) 28.7s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
کل ٹیسٹس 19 غلط ٹیسٹس 13 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 21.6s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز