إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات
حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر.
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #113 | DeepSeek V4 Pro none | DeepSeek | 1 | 3.5 | 0/4 | 14.0s |
| #121 | Owl Alpha none | Openrouter | 1 | 3.4 | 0/4 | 2.78s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 1 | 3.3 | 0/4 | 2.67s |
| #126 | gpt-oss-120b none | OpenAI | 1 | 6.5 | 2/4 | 32.8s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 7.9 | 2/4 | 20.8s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 7.9 | 2/4 | 40.3s |
| #137 | Elephant Alpha none | Openrouter | 1 | 6.6 | 2/4 | 963ms |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 6.8 | 2/4 | 11.8s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 3.6 | 0/4 | 3.31s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 3.0 | 0/4 | 534ms |
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 3.5 | 0/4 | 8.64s |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.2 | 0/4 | 1.07s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 4.7 | 1/4 | 15.0s |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.9 | 1/4 | 844ms |