AI BENCHY زمرہ ناکامیاں
ٹول کالنگ: ہدایات پر عمل نہیں کیا
ٹول کالنگ
ہدایات پر عمل نہیں کیا
دیکھیں کہ ٹول کالنگ میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #25 | Grok 4.20 Beta medium | X AI | 1 | 3.0 | 0/1 | 12.4s |
| #44 | GPT-5.4 Mini medium | OpenAI | 1 | 4.7 | 0/1 | 9.62s |
| #47 | Grok 4.20 medium | X AI | 1 | 3.0 | 0/1 | 13.7s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 12.0s |
| #86 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | 0/1 | 2.32s |
| #88 | Nemotron 3 Super none | NVIDIA | 1 | 4.7 | 0/1 | 16.0s |