إخفاقات الفئات في AI BENCHY
الذكاء العام: لم يتبع التعليمات
الذكاء العام
لم يتبع التعليمات
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.
أسباب الفشل
| الترتيب | النموذج | الشركة | عدد لم يتبع التعليمات | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #50 | Gemini 3.1 Flash Lite Preview low | 1 | 4.0 | 0/1 | 1.54s | |
| #53 | Gemini 3.1 Flash Lite high | 1 | 5.0 | 0/1 | 45.7s | |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 4.5 | 0/1 | 13.5s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 5.4 | 0/1 | 5.37s |
| #58 | Gemini 3.1 Flash Lite Preview none | 1 | 4.0 | 0/1 | 741ms | |
| #62 | Step 3.5 Flash medium | Stepfun | 1 | 5.5 | 0/1 | 22.4s |
| #63 | GPT-5.3 Chat none | OpenAI | 1 | 4.6 | 0/1 | 1.99s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 1 | 4.0 | 0/1 | 4.20s |
| #65 | Grok 4.20 medium | X AI | 1 | 3.9 | 0/1 | 24.5s |
| #67 | MiniMax M3 medium | Minimax | 1 | 5.1 | 0/1 | 33.3s |
| #70 | GPT-5.4 Nano medium | OpenAI | 1 | 4.5 | 0/1 | 4.15s |
| #73 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 5.1 | 0/1 | 36.7s |
| #75 | Ring-2.6-1T medium | Inclusionai | 1 | 4.1 | 0/1 | 58.3s |
| #76 | Kimi K2.5 medium | Moonshot AI | 1 | 6.5 | 0/1 | 69.7s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.1 | 0/1 | 2.56s |