عمومی ذہانت x ہدایات پر عمل نہیں کیا درجہ بندی

دیکھیں کہ عمومی ذہانت میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Grok 4.5 1

ناکامی کی وجوہات

ہدایات پر عمل نہیں کیا78 غلط جواب59 API خرابی12 ٹائم آؤٹ4

زمرے

پہیلی حل کرنا90 عمومی ذہانت78 اینٹی اے آئی چالیں33 ہدایات کی پیروی18 کوڈنگ16 ٹول کالنگ8 مشترکہ1 ڈومین مخصوص1

78/78

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#12	Grok 4.5 high	X AI	1	4.7	$1.707	0/1	9.82s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.707 ردِعمل کا وقت (اوسط) 9.82s
#13	GPT-5.3-Codex medium	OpenAI	1	4.6	$0.920	0/1	4.87s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 4.87s
#18	GPT-5.4 medium	OpenAI	1	4.7	$1.533	0/1	4.92s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 4.92s
#21	GPT-5.2 medium	OpenAI	1	3.7	$0.951	0/1	4.32s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 4.32s
#23	Claude Sonnet 5 medium	Anthropic	1	4.8	$0.922	0/1	4.32s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.922 ردِعمل کا وقت (اوسط) 4.32s
#25	Gemini 2.5 Flash medium	Google	1	4.8	$0.643	0/1	4.86s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.643 ردِعمل کا وقت (اوسط) 4.86s
#26	GPT-5 Mini medium	OpenAI	1	4.5	$0.237	0/1	13.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 13.5s
#30	GPT-5.2 Chat none	OpenAI	1	4.4	$0.604	0/1	3.20s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 3.20s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	6.7	$0.234	0/1	18.2s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 18.2s
#37	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.405 ردِعمل کا وقت (اوسط) 27.1s
#42	GLM 5 medium	Z.ai	1	6.1	$0.307	0/1	14.7s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 14.7s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.042	0/1	25.2s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 25.2s
#47	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 33.3s
#53	GPT-5.4 Nano medium	OpenAI	1	4.5	$0.138	0/1	4.15s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 4.15s
#54	GPT-5.3 Chat none	OpenAI	1	4.6	$0.571	0/1	1.99s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.571 ردِعمل کا وقت (اوسط) 1.99s

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

عمومی ذہانت: ہدایات پر عمل نہیں کیا

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز