ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

242

سب سے زیادہ متاثر ماڈل

MiniMax M2.7 5

زمرے

زمرہ پہیلی حل کرنا میں88 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں32 زمرہ ہدایات کی پیروی میں18 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

138/138

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#168	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 41.3s
#150	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 4.12s
#181	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 23.8s
#195	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 12.9s
#197	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
کل ٹیسٹس 22 غلط ٹیسٹس 20 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 1.45s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 22.6s
#26	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 27.6s
#56	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 25.9s
#77	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 2.72s
#116	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.86s
#117	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 21.9s
#126	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 174.2s
#132	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 1.53s
#134	Kimi K2.6 none	Moonshot AI	3	5.8	$0.233	7/22	19.6s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.233 ردِعمل کا وقت (اوسط) 19.6s
#136	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.066	8/22	52.0s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 52.0s

1 2 10

→

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز