ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 4

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#153	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 2.27s
#154	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 9.88s
#194	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 39.9s
#197	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 1.19s
#202	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 4.70s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.090 ردِعمل کا وقت (اوسط) 4.76s
#118	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.548 ردِعمل کا وقت (اوسط) 6.04s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 13.6s
#135	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 3.87s
#138	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 1.65s
#146	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.055	8/22	52.0s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.055 ردِعمل کا وقت (اوسط) 52.0s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 8.42s
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 7.64s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
کل ٹیسٹس 19 غلط ٹیسٹس 12 کل لاگت $0.547 ردِعمل کا وقت (اوسط) 28.7s
#151	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 2.99s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز