إخفاقات الفئات في AI BENCHY
اتباع التعليمات: تنسيق إضافي
اتباع التعليمات
تنسيق إضافي
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور تنسيق إضافي في اتباع التعليمات، حتى ترصد نقاط الضعف بسرعة أكبر.
2/2
تصفية النماذج
لا توجد نماذج تطابق البحث والفلاتر الحالية.
| الترتيب | النموذج | الشركة | عدد تنسيق إضافي | درجة الفئة | إجمالي التكلفة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|---|
| #117 | DeepSeek V4 Flash none | DeepSeek | 1 | 6.5 | $0.007 | 1/2 | 17.5s |
| #158 | Hy3 preview none | Tencent | 1 | 6.3 | $0.003 | 1/2 | 13.0s |