AI BENCHY زمرہ ناکامیاں
کوڈنگ: ہدایات پر عمل نہیں کیا
کوڈنگ
ہدایات پر عمل نہیں کیا
دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #49 | Grok 4.1 Fast medium | X AI | 1 | 2.3 | 0/1 | 23.6s |
| #91 | Qwen3.5-9B medium | Qwen | 1 | 2.6 | 0/1 | 135.6s |