إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات
حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.
أسباب الإخفاق المرتبطة
الفئات المرتبطة
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #22 | Gemini 3.1 Flash Lite Preview none | 1 | 6.0 | 1/3 | 1.16s | |
| #36 | Mercury 2 medium | Inception | 1 | 7.3 | 2/3 | 1.30s |
| #53 | Grok 4.1 Fast none | X AI | 1 | 1.3 | 0/3 | 1.73s |
| #12 | Gemini 3.1 Flash Lite Preview medium | 1 | 9.0 | 2/3 | 2.53s | |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 2.3 | 0/3 | 4.39s |
| #19 | GPT-5.3 Chat none | OpenAI | 1 | 7.3 | 2/3 | 4.72s |
| #27 | GPT-5.2 medium | OpenAI | 1 | 7.0 | 2/3 | 14.3s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 1.3 | 0/3 | 15.3s |
| #32 | GPT-5 Mini medium | OpenAI | 1 | 7.0 | 2/3 | 16.5s |
| #39 | gpt-oss-120b medium | OpenAI | 1 | 7.0 | 2/3 | 19.8s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 4.0 | 1/3 | 27.1s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 9.3 | 2/3 | 32.4s |