پہیلی حل کرنا x ہدایات پر عمل نہیں کیا درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Gemini 3.1 Flash Lite 2

ناکامی کی وجوہات

غلط جواب201 ہدایات پر عمل نہیں کیا90 API خرابی12 اضافی فارمیٹنگ8 ٹائم آؤٹ5 کوئی جواب نہیں3

زمرے

پہیلی حل کرنا90 عمومی ذہانت78 اینٹی اے آئی چالیں33 ہدایات کی پیروی18 کوڈنگ16 ٹول کالنگ8 مشترکہ1 ڈومین مخصوص1

86/86

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#49	GLM 5 Turbo medium	Z.ai	1	8.7	$0.323	2/3	5.23s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.323 ردِعمل کا وقت (اوسط) 5.23s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.751 ردِعمل کا وقت (اوسط) 41.0s
#53	GPT-5.4 Nano medium	OpenAI	1	4.1	$0.138	0/3	3.79s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 3.79s
#56	GPT-5.4 Mini medium	OpenAI	1	7.8	$0.756	2/3	4.37s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 4.37s
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 59.6s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.036 ردِعمل کا وقت (اوسط) 25.1s
#73	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 22.5s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 37.7s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.600 ردِعمل کا وقت (اوسط) 43.2s
#78	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 949ms
#84	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 5.31s
#85	Qwen3.6 Flash medium	Qwen	1	8.2	$0.738	2/3	6.29s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.738 ردِعمل کا وقت (اوسط) 6.29s
#91	LongCat 2.0 low	Meituan	1	3.1	$0.391	0/3	8.15s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 8.15s
#97	LongCat 2.0 high	Meituan	1	3.1	$0.469	0/3	9.18s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 9.18s
#100	Hy3 preview medium	Tencent	1	7.7	$0.018	2/3	11.1s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 11.1s

←

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا: ہدایات پر عمل نہیں کیا

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز