إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات
حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 8.7 | 3/4 | 9.65s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 1 | 9.1 | 3/4 | 2.33s | |
| #44 | Gemini 3.1 Flash Lite medium | 1 | 9.1 | 3/4 | 2.39s | |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 9.2 | 3/4 | 43.3s |
| #42 | GPT-5.2 medium | OpenAI | 1 | 6.5 | 2/4 | 7.81s |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 7.1 | 2/4 | 13.9s |
| #58 | Gemini 3.1 Flash Lite Preview none | 1 | 7.5 | 2/4 | 1.04s | |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 7.2 | 2/4 | 10.8s |
| #60 | Kimi K2.6 medium | Moonshot AI | 1 | 7.0 | 2/4 | 11.6s |
| #63 | GPT-5.3 Chat none | OpenAI | 1 | 6.7 | 2/4 | 3.86s |
| #81 | Mercury 2 medium | Inception | 1 | 6.9 | 2/4 | 1.12s |
| #99 | gpt-oss-120b medium | OpenAI | 1 | 6.7 | 2/4 | 10.2s |
| #126 | gpt-oss-120b none | OpenAI | 1 | 6.5 | 2/4 | 32.8s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 7.9 | 2/4 | 20.8s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 7.9 | 2/4 | 40.3s |