ہدایات کی پیروی x غلط جواب درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Laguna XS 2.1 1

ناکامی کی وجوہات

غلط جواب61 ہدایات پر عمل نہیں کیا18 اضافی فارمیٹنگ3 کوئی جواب نہیں2 API خرابی1 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

61/61

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 364ms
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 822ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 344ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 685ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 541ms
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.5	$0.661	1/2	1.96s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 1.96s
#71	Qwen3.7 Plus none	Qwen	1	6.3	$0.106	1/2	929ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 929ms
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.535 ردِعمل کا وقت (اوسط) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 4.12s
#87	GPT-5.5 none	OpenAI	1	6.2	$0.544	1/2	1.15s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.544 ردِعمل کا وقت (اوسط) 1.15s
#88	Gemini 3.5 Flash minimal	Google	1	6.4	$0.300	1/2	893ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 893ms
#89	Gemini 3 Flash Preview none	Google	1	6.4	$0.085	1/2	1.58s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 1.58s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 6.39s

1 2 3 4 5

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز