إخفاقات الفئات في AI BENCHY
استدعاء الأدوات: استدعاء أداة غير صالح
استدعاء الأدوات
استدعاء أداة غير صالح
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور استدعاء أداة غير صالح في استدعاء الأدوات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.
الفئات
| الترتيب | النموذج | الشركة | عدد استدعاء أداة غير صالح | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 3.0 | 0/1 | 25.7s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 18.8s |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 7.0 | 0/1 | 12.5s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 4.7 | 0/1 | 3.39s |
| #136 | Elephant Alpha medium | Openrouter | 1 | 3.0 | 0/1 | 2.83s |
| #137 | Elephant Alpha none | Openrouter | 1 | 3.0 | 0/1 | 2.79s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 3.0 | 0/1 | 1.93s |