ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

245

سب سے زیادہ متاثر ماڈل

Step 3.5 Flash 3

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں18 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

140/140

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#108	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 68.6s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
کل ٹیسٹس 16 غلط ٹیسٹس 3 کل لاگت $2.310 ردِعمل کا وقت (اوسط) 68.1s
#28	Inkling high	Thinkingmachines	1	8.0	$1.006	15/22	64.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 64.2s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 62.7s
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
کل ٹیسٹس 18 غلط ٹیسٹس 8 کل لاگت $2.044 ردِعمل کا وقت (اوسط) 62.0s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 58.1s
#179	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 55.1s
#128	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 54.9s
#140	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.050	8/22	52.0s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.050 ردِعمل کا وقت (اوسط) 52.0s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 49.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 48.5s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 47.4s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.738 ردِعمل کا وقت (اوسط) 44.7s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز