ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#158	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 10.7s
#160	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 4.12s
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 7.64s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 2.44s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 10.1s
#166	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.55s
#167	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 5.52s
#168	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 8.58s
#169	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
کل ٹیسٹس 16 غلط ٹیسٹس 3 کل لاگت $2.310 ردِعمل کا وقت (اوسط) 68.1s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 3.50s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 1.20s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 9.12s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 10.8s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 4.62s
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 19.2s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز