ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

245

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 4

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں18 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

140/140

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#201	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
کل ٹیسٹس 22 غلط ٹیسٹس 20 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 1.45s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
کل ٹیسٹس 19 غلط ٹیسٹس 17 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 728ms
#210	LFM2-24B-A2B none	Liquid	1	2.2	$0.001	2/16	782ms
کل ٹیسٹس 16 غلط ٹیسٹس 14 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 782ms
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
کل ٹیسٹس 22 غلط ٹیسٹس 19 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 82.2s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
کل ٹیسٹس 19 غلط ٹیسٹس 16 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.62s
#161	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 5.52s
#162	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 8.58s
#169	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 19.2s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 29.9s
#180	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 2.57s
#187	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 9.61s
#189	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 829ms
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 142.6s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 2.98s
#199	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 12.9s

1 2 10

→

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز