إخفاقات الفئات في AI BENCHY
حل الألغاز: لم يتبع التعليمات
حل الألغاز
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر.
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #84 | gpt-oss-120b none | OpenAI | 2 | 4.5 | 0/3 | 6.86s |
| #90 | Qwen3.5-9B none | Qwen | 2 | 3.2 | 0/3 | 683ms |
| #92 | Qwen3 Coder Next medium | Qwen | 2 | 3.1 | 0/3 | 2.30s |
| #6 | Seed-2.0-Lite medium | Bytedance Seed | 1 | 9.0 | 2/3 | 11.0s |
| #7 | GPT-5.3-Codex medium | OpenAI | 1 | 9.0 | 2/3 | 5.12s |
| #10 | Qwen3.5-27B medium | Qwen | 1 | 8.2 | 2/3 | 64.6s |
| #14 | Gemma 4 31B medium | 1 | 8.8 | 2/3 | 27.6s | |
| #16 | GPT-5.4 medium | OpenAI | 1 | 8.2 | 2/3 | 9.13s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 7.0 | 1/3 | 4.71s |
| #24 | Gemma 4 26B A4B medium | 1 | 7.9 | 2/3 | 8.52s | |
| #25 | Grok 4.20 Beta medium | X AI | 1 | 8.2 | 2/3 | 3.85s |
| #30 | Step 3.5 Flash medium | Stepfun | 1 | 5.3 | 1/3 | 7.72s |
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 7.7 | 2/3 | 10.9s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 6.5 | 1/3 | 3.88s |
| #40 | GPT-5.2 medium | OpenAI | 1 | 7.7 | 2/3 | 5.47s |