عمومی ذہانت x ہدایات پر عمل نہیں کیا درجہ بندی

دیکھیں کہ عمومی ذہانت میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Grok 4.5 1

ناکامی کی وجوہات

ہدایات پر عمل نہیں کیا78 غلط جواب59 API خرابی12 ٹائم آؤٹ4

زمرے

پہیلی حل کرنا90 عمومی ذہانت78 اینٹی اے آئی چالیں33 ہدایات کی پیروی18 کوڈنگ16 ٹول کالنگ8 مشترکہ1 ڈومین مخصوص1

78/78

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#56	GPT-5.4 Mini medium	OpenAI	1	4.5	$0.756	0/1	3.72s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 3.72s
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 101.4s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.1	$0.661	0/1	2.56s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 2.56s
#71	Qwen3.7 Plus none	Qwen	1	5.3	$0.106	0/1	1.33s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 1.33s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 24.5s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.600 ردِعمل کا وقت (اوسط) 69.7s
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 821ms
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 36.7s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	4.7	$0.467	0/1	2.35s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 2.35s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	5.5	$0.187	0/1	4.02s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 4.02s
#90	Qwen3.6 35B A3B medium	Qwen	1	4.4	$0.746	0/1	8.66s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 8.66s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 39.5s
#101	MiMo-V2.5 medium	Xiaomi	1	5.4	$0.082	0/1	5.37s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 5.37s
#103	Qwen3.5-27B none	Qwen	1	5.0	$0.090	0/1	2.51s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.090 ردِعمل کا وقت (اوسط) 2.51s

←

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

عمومی ذہانت: ہدایات پر عمل نہیں کیا

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز