AI BENCHY زمرہ ناکامیاں
ہدایات کی پیروی: API خرابی
ہدایات کی پیروی
API خرابی
دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو API خرابی پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | API خرابی کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #47 | Grok 4.20 medium | X AI | 1 | 7.3 | 1/2 | 4.42s |