ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 4

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 11.9s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 2.44s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 148.7s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 1.75s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 54.9s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 55.1s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 10.3s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 79.1s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.600 ردِعمل کا وقت (اوسط) 99.0s
#82	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 11.6s
#96	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 100.3s
#105	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 106.3s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز