AI BENCHY
Advertise here

إخفاقات AI BENCHY

إخفاقات استدعاء أداة غير صالح

اكتشف أي نماذج الذكاء الاصطناعي تواجه استدعاء أداة غير صالح أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

15

إجمالي الإخفاقات

26

النموذج الأكثر تأثرًا

GLM 5V Turbo 2
الترتيب النموذج الشركة عدد استدعاء أداة غير صالح النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#59 GLM 5V Turbo medium Z.ai 2 7.2 11/21 23.1s
#138 Ling-2.6-flash none Inclusionai 2 5.0 6/21 9.34s
#32 Gemini 3.5 Flash minimal Google 1 7.7 14/21 1.57s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#107 Laguna Xs.2 medium Poolside 1 5.8 6/19 6.73s
#112 GLM 5.1 none Z.ai 1 5.7 7/21 4.10s
#118 Qwen3.6 27B none Qwen 1 5.6 7/21 3.72s
#119 Cobuddy medium Baidu 1 5.6 7/21 39.9s
#122 GLM 4.7 Flash none Z.ai 1 5.5 6/21 2.86s
#127 Grok 4.20 none X AI 1 5.4 6/18 1.11s
#128 Qwen3.6 Flash none Qwen 1 5.4 7/21 1.60s
#129 MiniMax M2.5 medium Minimax 1 5.3 5/21 65.4s
#130 MiniMax M2.7 medium Minimax 1 5.3 5/21 38.2s
#133 DeepSeek V3.2 none DeepSeek 1 5.2 6/21 13.8s

أفضل النماذج حسب عدد استدعاء أداة غير صالح

عدد استدعاء أداة غير صالح مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)