إخفاقات الفئات في AI BENCHY
استدعاء الأدوات
إجابة خاطئة
استدعاء الأدوات
إجابة خاطئة
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في استدعاء الأدوات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.
أسباب الإخفاق المرتبطة
| الترتيب | النموذج | الشركة | عدد إجابة خاطئة | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #53 | Grok 4.1 Fast none | X AI | 1 | 10.0 | 0/1 | 5.51s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 7.05s |