ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

245

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں18 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

140/140

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 26.4s
#30	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 7.65s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 62.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 48.5s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 2.65s
#24	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 11.5s
#43	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $3.059 ردِعمل کا وقت (اوسط) 34.3s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 49.7s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.571 ردِعمل کا وقت (اوسط) 6.88s
#58	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 111.9s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.115 ردِعمل کا وقت (اوسط) 4.61s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.117 ردِعمل کا وقت (اوسط) 4.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $1.166 ردِعمل کا وقت (اوسط) 4.91s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 47.4s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 58.1s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز