ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Step 3.5 Flash 3

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 19.2s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 18.3s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
کل ٹیسٹس 19 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 17.1s
#16	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 17.0s
#110	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 16.7s
#106	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 16.3s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 14.7s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 13.6s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 13.2s
#205	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 12.9s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 12.9s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.7s
#26	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.922 ردِعمل کا وقت (اوسط) 12.5s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.1s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 11.9s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز