AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

استدعاء الأدوات: خطأ API

استدعاء الأدوات
خطأ API

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في استدعاء الأدوات، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

15

إجمالي الإخفاقات

15

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1
الترتيب النموذج الشركة عدد خطأ API درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#20 Gemini 3.5 Flash none Google 1 3.0 0/1 0ms
#27 Gemma 4 31B medium Google 1 3.0 0/1 0ms
#46 Qwen3.6 35B A3B medium Qwen 1 3.0 0/1 0ms
#55 GLM 5.1 medium Z.ai 1 3.0 0/1 0ms
#83 Step 3.5 Flash none Stepfun 1 3.0 0/1 0ms
#84 Grok 4.20 Multi Agent Beta medium X AI 1 3.0 0/1 0ms
#85 Gemma 4 31B none Google 1 3.0 0/1 0ms
#89 Hy3 preview low Tencent 1 2.8 0/1 17.8s
#96 Ring-2.6-1T none Inclusionai 1 3.0 0/1 0ms
#100 Grok Build 0.1 none X AI 1 3.0 0/1 0ms
#126 gpt-oss-120b none OpenAI 1 3.0 0/1 0ms
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 3.0 0/1 0ms
#153 Qwen3.6 35B A3B none Qwen 1 3.0 0/1 0ms
#160 LFM2-24B-A2B none Liquid 1 3.0 0/1 0ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 3.0 0/1 0ms

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية