ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 2

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#21	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 23.1s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 23.8s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 24.0s
#19	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 25.0s
#60	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 25.9s
#33	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 26.4s
#29	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 27.6s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
کل ٹیسٹس 19 غلط ٹیسٹس 12 کل لاگت $0.547 ردِعمل کا وقت (اوسط) 28.7s
#79	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 29.5s
#177	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 29.9s
#30	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 31.5s
#107	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 32.2s
#46	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
کل ٹیسٹس 21 غلط ٹیسٹس 6 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 33.5s
#88	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 33.9s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $3.059 ردِعمل کا وقت (اوسط) 34.3s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز