عمومی ذہانت x ہدایات پر عمل نہیں کیا درجہ بندی

دیکھیں کہ عمومی ذہانت میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Grok 4.5 1

ناکامی کی وجوہات

ہدایات پر عمل نہیں کیا78 غلط جواب59 API خرابی12 ٹائم آؤٹ4

زمرے

پہیلی حل کرنا90 عمومی ذہانت78 اینٹی اے آئی چالیں33 ہدایات کی پیروی18 کوڈنگ16 ٹول کالنگ8 مشترکہ1 ڈومین مخصوص1

78/78

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#104	Gemini 3.1 Flash Lite Preview low	Google	1	4.0	$0.646	0/1	1.54s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 1.54s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 741ms
#108	Ring-2.6-1T medium	Inclusionai	1	4.1	$0.103	0/1	58.3s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 58.3s
#112	Claude Sonnet 5 none	Anthropic	1	4.7	$0.548	0/1	2.81s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.548 ردِعمل کا وقت (اوسط) 2.81s
#113	MiMo-V2-Flash medium	Xiaomi	1	4.0	$0.043	0/1	4.20s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.043 ردِعمل کا وقت (اوسط) 4.20s
#114	Qwen3.5-Flash medium	Qwen	1	6.1	$0.139	0/1	40.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.139 ردِعمل کا وقت (اوسط) 40.1s
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 791ms
#121	gpt-oss-120b medium	OpenAI	1	4.3	$0.019	0/1	7.90s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 7.90s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	4.8	$0.122	0/1	1.41s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 1.41s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 1.19s
#128	GPT-5 Nano medium	OpenAI	1	4.1	$0.114	0/1	17.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 17.5s
#130	Step 3.5 Flash medium	Stepfun	1	5.5	$0.108	0/1	22.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 22.4s
#136	GPT-5.4 Mini none	OpenAI	1	4.8	$0.095	0/1	1.82s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 1.82s
#138	Kimi K2.6 none	Moonshot AI	1	5.4	$0.184	0/1	1.55s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.184 ردِعمل کا وقت (اوسط) 1.55s
#140	Nemotron 3 Super medium	NVIDIA	1	4.1	$0.050	0/1	6.91s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.050 ردِعمل کا وقت (اوسط) 6.91s

←

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

عمومی ذہانت: ہدایات پر عمل نہیں کیا

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز