إخفاقات الفئات في AI BENCHY
اتباع التعليمات: خطأ API
اتباع التعليمات
خطأ API
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في اتباع التعليمات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.
أسباب الفشل
| الترتيب | النموذج | الشركة | عدد خطأ API | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #47 | Grok 4.20 medium | X AI | 1 | 7.3 | 1/2 | 4.42s |