إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات
حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 3.6 | 0/4 | 1.63s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 1 | 3.5 | 0/4 | 14.0s |
| #121 | Owl Alpha none | Openrouter | 1 | 3.4 | 0/4 | 2.78s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 1 | 3.3 | 0/4 | 2.67s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 3.6 | 0/4 | 3.31s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 3.0 | 0/4 | 534ms |
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 3.5 | 0/4 | 8.64s |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.2 | 0/4 | 1.07s |
| #67 | MiniMax M3 medium | Minimax | 1 | 5.5 | 1/4 | 14.9s |
| #156 | Hy3 preview none | Tencent | 2 | 4.8 | 1/4 | 11.1s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 4.7 | 1/4 | 15.0s |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.9 | 1/4 | 844ms |
| #42 | GPT-5.2 medium | OpenAI | 1 | 6.5 | 2/4 | 7.81s |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 7.1 | 2/4 | 13.9s |
| #58 | Gemini 3.1 Flash Lite Preview none | 1 | 7.5 | 2/4 | 1.04s |