AI BENCHY زمرہ ناکامیاں
ہدایات کی پیروی: ہدایات پر عمل نہیں کیا
ہدایات کی پیروی
ہدایات پر عمل نہیں کیا
دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #82 | Grok 4.20 none | X AI | 1 | 4.8 | 0/2 | 455ms |
| #79 | Grok 4.20 Beta none | X AI | 1 | 4.8 | 0/2 | 687ms |
| #96 | GPT-5.4 Nano none | OpenAI | 1 | 5.0 | 0/2 | 787ms |
| #60 | Gemma 4 26B A4B none | 1 | 4.4 | 0/2 | 1.08s | |
| #78 | Trinity Large Preview none | Arcee AI | 1 | 4.1 | 0/2 | 1.09s |
| #89 | GPT-4o-mini none | OpenAI | 1 | 4.8 | 0/2 | 1.27s |
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 4.9 | 0/2 | 1.50s |
| #75 | GLM 5.1 none | Z.ai | 1 | 8.3 | 1/2 | 1.58s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 7.4 | 1/2 | 2.50s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 8.3 | 1/2 | 4.63s |
| #71 | MiniMax M2.5 medium | Minimax | 1 | 8.1 | 1/2 | 4.64s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 8.3 | 1/2 | 4.92s |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 8.3 | 1/2 | 4.97s |
| #30 | Step 3.5 Flash medium | Stepfun | 1 | 8.5 | 1/2 | 4.98s |
| #84 | gpt-oss-120b none | OpenAI | 1 | 8.4 | 1/2 | 5.10s |