ہدایات پر عمل نہیں کیا ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

246

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1

زمرے

زمرہ پہیلی حل کرنا میں90 زمرہ عمومی ذہانت میں78 زمرہ اینٹی اے آئی چالیں میں33 زمرہ ہدایات کی پیروی میں19 زمرہ کوڈنگ میں16 زمرہ ٹول کالنگ میں8 زمرہ مشترکہ میں1 زمرہ ڈومین مخصوص میں1

141/141

درجہ	ماڈل	کمپنی	ہدایات پر عمل نہیں کیا کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 54.9s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 41.2s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 12.9s
#151	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 2.99s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 11.9s
#153	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 2.27s
#158	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 10.7s
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 7.64s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 10.1s
#167	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 5.52s
#168	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 8.58s
#173	Mistral Small 4 medium	Mistral	2	5.1	$0.096	5/22	10.8s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 10.8s
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 19.2s
#176	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
کل ٹیسٹس 21 غلط ٹیسٹس 15 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 2.82s
#177	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 29.9s

ہدایات پر عمل نہیں کیا ناکامیاں

ماڈلز فلٹر کریں

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز