ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Step 3.5 Flash 3

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#168	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 8.58s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 8.42s
#12	Gemini 3.5 Flash medium	Google	1	9.1	$0.642	19/22	8.20s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.642 ردِعمل کا وقت (اوسط) 8.20s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 8.12s
#34	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 7.65s
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 7.64s
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.571 ردِعمل کا وقت (اوسط) 6.88s
#118	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.548 ردِعمل کا وقت (اوسط) 6.04s
#183	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 5.97s
#167	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 5.52s
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 5.34s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 5.15s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 5.04s
#70	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 4.91s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.090 ردِعمل کا وقت (اوسط) 4.76s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز