إخفاقات الفئات في AI BENCHY
حيل مضادة للذكاء الاصطناعي: تنسيق إضافي
حيل مضادة للذكاء الاصطناعي
تنسيق إضافي
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور تنسيق إضافي في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.
| الترتيب | النموذج | الشركة | عدد تنسيق إضافي | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #10 | Qwen3.5-27B medium | Qwen | 1 | 8.7 | 3/4 | 19.8s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 1 | 8.1 | 3/4 | 15.8s |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 6.5 | 2/4 | 2.98s |
| #37 | Claude Opus 4.6 medium | Anthropic | 2 | 6.4 | 2/4 | 7.45s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 6.9 | 2/4 | 3.46s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 2 | 4.8 | 1/4 | 2.94s |
| #64 | DeepSeek V3.2 none | DeepSeek | 2 | 3.2 | 0/4 | 7.63s |
| #87 | Qwen3 Coder Next none | Qwen | 1 | 3.6 | 0/4 | 3.31s |