AI BENCHY زمرہ ناکامیاں
ہدایات کی پیروی: ہدایات پر عمل نہیں کیا
ہدایات کی پیروی
ہدایات پر عمل نہیں کیا
دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #130 | MiniMax M2.7 medium | Minimax | 1 | 3.8 | 0/2 | 12.8s |
| #105 | Nemotron 3 Super medium | NVIDIA | 1 | 7.3 | 1/2 | 6.97s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 8.3 | 1/2 | 4.99s |
| #62 | Step 3.5 Flash medium | Stepfun | 1 | 8.3 | 1/2 | 4.78s |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 6.5 | 1/2 | 4.63s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 7.3 | 1/2 | 1.37s |
| #151 | Trinity Large Preview none | Arcee AI | 1 | 3.5 | 0/2 | 822ms |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.0 | 0/2 | 685ms |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 7.5 | 1/2 | 621ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 4.8 | 0/2 | 541ms |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.6 | 0/2 | 344ms |