پہیلی حل کرنا x ہدایات پر عمل نہیں کیا درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Gemini 3.1 Flash Lite 2

ناکامی کی وجوہات

غلط جواب201 ہدایات پر عمل نہیں کیا90 API خرابی12 اضافی فارمیٹنگ8 ٹائم آؤٹ5 کوئی جواب نہیں3

زمرے

پہیلی حل کرنا90 عمومی ذہانت78 اینٹی اے آئی چالیں33 ہدایات کی پیروی18 کوڈنگ16 ٹول کالنگ8 مشترکہ1 ڈومین مخصوص1

86/86

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#120	Gemini 3.1 Flash Lite minimal	Google	2	6.0	$0.047	1/3	2.15s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 2.15s
#143	Gemini 3.1 Flash Lite high	Google	2	5.7	$2.044	1/3	50.8s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $2.044 ردِعمل کا وقت (اوسط) 50.8s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 1.07s
#171	North Mini Code none	Cohere	2	3.5	$0.000	0/3	24.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 24.4s
#13	GPT-5.3-Codex medium	OpenAI	1	9.0	$0.920	2/3	5.05s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 5.05s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 42.5s
#18	GPT-5.4 medium	OpenAI	1	8.2	$1.533	2/3	9.14s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 9.14s
#21	GPT-5.2 medium	OpenAI	1	7.5	$0.951	2/3	5.80s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 5.80s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	2/3	6.60s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.647 ردِعمل کا وقت (اوسط) 6.60s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 15.2s
#28	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 10.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 33.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	9.0	$0.234	2/3	10.2s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 10.2s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 26.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 56.8s

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا: ہدایات پر عمل نہیں کیا

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز