پہیلی حل کرنا x ہدایات پر عمل نہیں کیا درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Gemini 3.1 Flash Lite 2

ناکامی کی وجوہات

غلط جواب201 ہدایات پر عمل نہیں کیا90 API خرابی12 اضافی فارمیٹنگ8 ٹائم آؤٹ5 کوئی جواب نہیں3

زمرے

پہیلی حل کرنا90 عمومی ذہانت78 اینٹی اے آئی چالیں33 ہدایات کی پیروی18 کوڈنگ16 ٹول کالنگ8 مشترکہ1 ڈومین مخصوص1

86/86

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#103	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.090 ردِعمل کا وقت (اوسط) 1.38s
#108	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 20.7s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.333 ردِعمل کا وقت (اوسط) 5.08s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/3	4.23s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.035 ردِعمل کا وقت (اوسط) 4.23s
#121	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 21.7s
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 720ms
#123	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 2.97s
#124	Qwen3.6 Flash none	Qwen	1	3.5	$0.062	0/3	1.21s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 1.21s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.7	$0.106	0/3	1.35s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 1.35s
#128	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 20.6s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 1.06s
#130	Step 3.5 Flash medium	Stepfun	1	5.3	$0.108	1/3	7.22s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 7.22s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	1/3	2.38s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 2.38s
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 836ms
#138	Kimi K2.6 none	Moonshot AI	1	3.1	$0.184	0/3	1.40s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.184 ردِعمل کا وقت (اوسط) 1.40s

←

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا: ہدایات پر عمل نہیں کیا

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز