ہدایات کی پیروی x غلط جواب درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

North Mini Code 1

ناکامی کی وجوہات

غلط جواب61 ہدایات پر عمل نہیں کیا18 اضافی فارمیٹنگ3 کوئی جواب نہیں2 API خرابی1 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

61/61

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 12.8s
#146	Owl Alpha medium	Openrouter	1	6.5	$0.000	1/2	10.2s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 10.2s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 8.81s
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 7.78s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 7.49s
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.535 ردِعمل کا وقت (اوسط) 7.47s
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 7.38s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 6.96s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 6.39s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 5.36s
#157	Mimo V2 Omni none	Xiaomi	1	6.5	$0.021	1/2	4.26s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 4.26s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 4.12s
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 2.97s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.035 ردِعمل کا وقت (اوسط) 2.84s

1 2 3 4 5

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز