AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات الفئات في AI BENCHY

استدعاء الأدوات: خطأ API

استدعاء الأدوات
خطأ API

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في استدعاء الأدوات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

6

إجمالي الإخفاقات

6

النموذج الأكثر تأثرًا

Gemma 4 31B 1
الترتيب النموذج الشركة عدد خطأ API درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#14 Gemma 4 31B medium Google 1 3.0 0/1 0ms
#33 GLM 5.1 medium Z.ai 1 3.0 0/1 0ms
#48 Gemma 4 31B none Google 1 3.0 0/1 0ms
#56 Grok 4.20 Multi Agent Beta medium X AI 1 3.0 0/1 0ms
#84 gpt-oss-120b none OpenAI 1 3.0 0/1 0ms
#98 LFM2-24B-A2B none Liquid 1 3.0 0/1 0ms

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية