إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات
حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #146 | Laguna Xs.2 none | Poolside | 1 | 3.0 | 0/4 | 534ms |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.9 | 1/4 | 844ms |
| #137 | Elephant Alpha none | Openrouter | 1 | 6.6 | 2/4 | 963ms |
| #58 | Gemini 3.1 Flash Lite Preview none | 1 | 7.5 | 2/4 | 1.04s | |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.2 | 0/4 | 1.07s |
| #81 | Mercury 2 medium | Inception | 1 | 6.9 | 2/4 | 1.12s |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 3.6 | 0/4 | 1.63s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 1 | 9.1 | 3/4 | 2.33s | |
| #44 | Gemini 3.1 Flash Lite medium | 1 | 9.1 | 3/4 | 2.39s | |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 1 | 3.3 | 0/4 | 2.67s |
| #121 | Owl Alpha none | Openrouter | 1 | 3.4 | 0/4 | 2.78s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 3.6 | 0/4 | 3.31s |
| #63 | GPT-5.3 Chat none | OpenAI | 1 | 6.7 | 2/4 | 3.86s |
| #42 | GPT-5.2 medium | OpenAI | 1 | 6.5 | 2/4 | 7.81s |
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 3.5 | 0/4 | 8.64s |