إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات
حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 9.2 | 3/4 | 43.3s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 7.9 | 2/4 | 40.3s |
| #126 | gpt-oss-120b none | OpenAI | 1 | 6.5 | 2/4 | 32.8s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 7.9 | 2/4 | 20.8s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 4.7 | 1/4 | 15.0s |
| #67 | MiniMax M3 medium | Minimax | 1 | 5.5 | 1/4 | 14.9s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 1 | 3.5 | 0/4 | 14.0s |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 7.1 | 2/4 | 13.9s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 6.8 | 2/4 | 11.8s |
| #60 | Kimi K2.6 medium | Moonshot AI | 1 | 7.0 | 2/4 | 11.6s |
| #156 | Hy3 preview none | Tencent | 2 | 4.8 | 1/4 | 11.1s |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 7.2 | 2/4 | 10.8s |
| #99 | gpt-oss-120b medium | OpenAI | 1 | 6.7 | 2/4 | 10.2s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 8.7 | 3/4 | 9.65s |
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 3.5 | 0/4 | 8.64s |