إخفاقات الفئات في AI BENCHY
مجمّع: استدعاء أداة غير صالح
مجمّع
استدعاء أداة غير صالح
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور استدعاء أداة غير صالح في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر.
أسباب الفشل
الفئات
| الترتيب | النموذج | الشركة | عدد استدعاء أداة غير صالح | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #145 | Laguna M.1 none | Poolside | 1 | 3.0 | 0/1 | 4.32s |
| #154 | Qwen3.5-9B none | Qwen | 1 | 3.0 | 0/1 | 5.91s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 2.8 | 0/1 | 65.6s |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | 0/1 | 1.88s |