AI BENCHY زمرہ ناکامیاں
ہدایات کی پیروی: کوئی جواب نہیں
ہدایات کی پیروی
کوئی جواب نہیں
دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو کوئی جواب نہیں پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | کوئی جواب نہیں کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #161 | Qwen3.5-9B medium | Qwen | 1 | 6.5 | 1/2 | 5.75s |
| #53 | Gemini 3.1 Flash Lite high | 1 | 7.3 | 1/2 | 23.3s |