ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#210	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
کل ٹیسٹس 22 غلط ٹیسٹس 19 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 82.2s
#211	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
کل ٹیسٹس 19 غلط ٹیسٹس 14 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 806ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
کل ٹیسٹس 19 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 17.1s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
کل ٹیسٹس 12 غلط ٹیسٹس 6 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 39.0s
#216	LFM2-24B-A2B none	Liquid	1	2.2	$0.001	2/16	782ms
کل ٹیسٹس 16 غلط ٹیسٹس 14 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 782ms
#16	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 17.0s
#19	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 25.0s
#21	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 23.1s
#27	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 11.5s
#30	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 31.5s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 48.5s
#49	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.041	13/22	49.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 79.1s
#51	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 75.0s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 13.2s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز