ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 4

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#136	Step 3.5 Flash medium	Stepfun	3	6.0	$0.108	11/21	174.2s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 174.2s
#29	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 27.6s
#30	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 31.5s
#51	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 75.0s
#56	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.740	12/22	84.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.740 ردِعمل کا وقت (اوسط) 84.2s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 13.2s
#60	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 25.9s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 8.12s
#72	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.036 ردِعمل کا وقت (اوسط) 110.0s
#79	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 29.5s
#88	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 33.9s
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.738 ردِعمل کا وقت (اوسط) 44.7s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.128	12/22	9.34s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.128 ردِعمل کا وقت (اوسط) 9.34s
#107	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 32.2s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 1.58s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز