ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#142	GPT-5.4 Mini none	OpenAI	3	5.9	$0.095	6/22	1.53s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 1.53s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 12.9s
#160	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 4.12s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 3.50s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 18.3s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 9.15s
#184	Ling-2.6-flash none	Inclusionai	2	4.9	$0.002	6/22	10.7s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 10.7s
#211	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
کل ٹیسٹس 19 غلط ٹیسٹس 14 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 806ms
#199	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
کل ٹیسٹس 21 غلط ٹیسٹس 16 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.22s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 36.8s
#166	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.55s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 1.20s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 9.12s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 10.8s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 4.62s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز