ہدایات کی پیروی x غلط جواب درجہ بندی

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

LongCat 2.0 1

ناکامی کی وجوہات

غلط جواب61 ہدایات پر عمل نہیں کیا18 اضافی فارمیٹنگ3 کوئی جواب نہیں2 API خرابی1 ٹائم آؤٹ1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

61/61

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.5	$0.661	1/2	1.96s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 1.96s
#71	Qwen3.7 Plus none	Qwen	1	6.3	$0.106	1/2	929ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 929ms
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.535 ردِعمل کا وقت (اوسط) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 4.12s
#87	GPT-5.5 none	OpenAI	1	6.2	$0.544	1/2	1.15s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.544 ردِعمل کا وقت (اوسط) 1.15s
#88	Gemini 3.5 Flash minimal	Google	1	6.4	$0.300	1/2	893ms
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 893ms
#89	Gemini 3 Flash Preview none	Google	1	6.4	$0.085	1/2	1.58s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 1.58s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 6.39s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 6.96s
#103	Qwen3.5-27B none	Qwen	1	6.3	$0.090	1/2	1.03s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.090 ردِعمل کا وقت (اوسط) 1.03s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	2.82s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 2.82s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.035 ردِعمل کا وقت (اوسط) 2.84s
#124	Qwen3.6 Flash none	Qwen	1	6.3	$0.062	1/2	1.10s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 1.10s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 8.81s

1 2 3 4 5

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ہدایات کی پیروی: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز