إخفاقات الفئات في AI BENCHY
البرمجة: لم يتبع التعليمات
البرمجة
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في البرمجة، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #74 | Laguna M.1 medium | Poolside | 1 | 4.3 | 0/1 | 35.6s |
| #80 | DeepSeek V4 Pro high | DeepSeek | 1 | 2.8 | 0/2 | 51.8s |
| #87 | Grok 4.1 Fast medium | X AI | 1 | 2.3 | 0/1 | 23.6s |
| #96 | Nemotron 3 Super medium | NVIDIA | 1 | 3.1 | 0/2 | 62.4s |
| #101 | Qwen3.5 Plus 2026-04-20 none | Qwen | 1 | 4.4 | 0/2 | 2.08s |
| #105 | Cobuddy medium | Baidu | 1 | 4.1 | 0/2 | 79.2s |
| #114 | DeepSeek V3.2 none | DeepSeek | 1 | 3.1 | 0/2 | 20.9s |
| #115 | MiMo-V2.5-Pro none | Xiaomi | 1 | 5.0 | 0/2 | 1.80s |
| #149 | MiMo-V2-Flash none | Xiaomi | 1 | 4.9 | 0/2 | 2.04s |
| #151 | Qwen3.5-9B medium | Qwen | 1 | 2.8 | 0/2 | 135.6s |
| #153 | Granite 4.1 8B none | IBM Granite | 1 | 5.2 | 0/2 | 706ms |
| #6 | Gemini 3.5 Flash medium | 1 | 6.8 | 1/2 | 9.91s | |
| #24 | Gemini 3.5 Flash minimal | 1 | 7.0 | 1/2 | 3.39s | |
| #63 | Claude Opus 4.6 medium | Anthropic | 1 | 7.2 | 1/2 | 29.4s |
| #100 | Owl Alpha medium | Openrouter | 1 | 6.6 | 1/2 | 19.1s |