ہدایات کی پیروی x غلط جواب درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

LongCat 2.0 1

ناکامی کی وجوہات

غلط جواب61 ہدایات پر عمل نہیں کیا18 اضافی فارمیٹنگ3 کوئی جواب نہیں2 API خرابی1 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

61/61

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#159	GPT-5.6 Luna none	OpenAI	1	7.1	$0.142	1/2	1.23s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 1.23s
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 364ms
#161	Qwen3.6 35B A3B none	Qwen	1	6.2	$0.061	1/2	1.86s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 1.86s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 5.36s
#164	Inkling none	Thinkingmachines	1	6.3	$0.147	1/2	1.72s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 1.72s
#165	Mistral Small 4 none	Mistral	1	6.5	$0.022	1/2	380ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 380ms
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 7.78s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.38s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 1.38s
#168	MiMo-V2.5 none	Xiaomi	1	6.5	$0.025	1/2	751ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 751ms
#169	Qwen3.5-9B none	Qwen	1	6.5	$0.021	1/2	514ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 514ms
#170	GLM 5 Turbo none	Z.ai	1	6.5	$0.047	1/2	2.13s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 2.13s
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 12.8s
#174	GPT-4o-mini none	OpenAI	1	6.3	$0.010	1/2	1.11s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 1.11s
#176	GLM 4.7 Flash none	Z.ai	1	6.5	$0.016	1/2	888ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 888ms

←

1 2 3 4 5

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز