عمومی ذہانت x ہدایات پر عمل نہیں کیا درجہ بندی

دیکھیں کہ عمومی ذہانت میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

LFM2-24B-A2B 1

ناکامی کی وجوہات

ہدایات پر عمل نہیں کیا78 غلط جواب59 API خرابی12 ٹائم آؤٹ4

زمرے

پہیلی حل کرنا90 عمومی ذہانت78 اینٹی اے آئی چالیں33 ہدایات کی پیروی18 کوڈنگ16 ٹول کالنگ8 مشترکہ1 ڈومین مخصوص1

78/78

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#210	LFM2-24B-A2B none	Liquid	1	4.0	$0.001	0/1	395ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 395ms
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 541ms
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 552ms
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 628ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 741ms
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 791ms
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 821ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 854ms
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 873ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 920ms
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 1.07s
#203	Grok 4.1 Fast none	X AI	1	4.4	$0.008	0/1	1.08s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.08s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 1.12s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 1.19s
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 1.31s

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

عمومی ذہانت: ہدایات پر عمل نہیں کیا

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز