AI BENCHY
Advertise here

إخفاقات AI BENCHY

إخفاقات استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي تواجه استدعاء أداة غير صالح أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↓.

النماذج المعروضة

9

إجمالي الإخفاقات

26

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1
الترتيب النموذج الشركة عدد استدعاء أداة غير صالح النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#137 Elephant Alpha none Openrouter 1 5.1 5/21 1.22s
#138 Ling-2.6-flash none Inclusionai 2 5.0 6/21 9.34s
#139 DeepSeek V4 Flash none DeepSeek 1 5.0 5/21 26.8s
#145 Laguna M.1 none Poolside 1 4.8 4/19 2.89s
#146 Laguna Xs.2 none Poolside 1 4.8 5/19 806ms
#154 Qwen3.5-9B none Qwen 1 4.6 4/21 1.89s
#158 GLM 4.7 Flash medium Z.ai 1 4.4 4/21 35.1s
#159 Ling-2.6-1T none Inclusionai 1 4.3 3/21 7.72s
#163 Granite 4.1 8B none IBM Granite 1 4.0 2/21 728ms

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)