إخفاقات الفئات في AI BENCHY
استدعاء الأدوات: خطأ API
استدعاء الأدوات
خطأ API
اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في استدعاء الأدوات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.
| الترتيب | النموذج | الشركة | عدد خطأ API | درجة الفئة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #14 | Gemma 4 31B medium | 1 | 3.0 | 0/1 | 0ms | |
| #33 | GLM 5.1 medium | Z.ai | 1 | 3.0 | 0/1 | 0ms |
| #48 | Gemma 4 31B none | 1 | 3.0 | 0/1 | 0ms | |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 3.0 | 0/1 | 0ms |
| #84 | gpt-oss-120b none | OpenAI | 1 | 3.0 | 0/1 | 0ms |
| #98 | LFM2-24B-A2B none | Liquid | 1 | 3.0 | 0/1 | 0ms |