إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات
حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.
أسباب الإخفاق المرتبطة
الفئات المرتبطة
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #43 | MiniMax M2.5 medium | Minimax | 1 | 9.3 | 2/3 | 32.4s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 4.0 | 1/3 | 27.1s |
| #39 | gpt-oss-120b medium | OpenAI | 1 | 7.0 | 2/3 | 19.8s |
| #32 | GPT-5 Mini medium | OpenAI | 1 | 7.0 | 2/3 | 16.5s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 1.3 | 0/3 | 15.3s |
| #27 | GPT-5.2 medium | OpenAI | 1 | 7.0 | 2/3 | 14.3s |
| #19 | GPT-5.3 Chat none | OpenAI | 1 | 7.3 | 2/3 | 4.72s |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 2.3 | 0/3 | 4.39s |
| #12 | Gemini 3.1 Flash Lite Preview medium | 1 | 9.0 | 2/3 | 2.53s | |
| #53 | Grok 4.1 Fast none | X AI | 1 | 1.3 | 0/3 | 1.73s |
| #36 | Mercury 2 medium | Inception | 1 | 7.3 | 2/3 | 1.30s |
| #22 | Gemini 3.1 Flash Lite Preview none | 1 | 6.0 | 1/3 | 1.16s |