AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات AI BENCHY

إخفاقات خطأ API

اكتشف أي نماذج الذكاء الاصطناعي تواجه خطأ API أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

15

إجمالي الإخفاقات

31

النموذج الأكثر تأثرًا

LFM2-24B-A2B 4
الترتيب النموذج الشركة عدد خطأ API النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#143 LFM2-24B-A2B none Liquid 4 4.2 2/16 811ms
#121 gpt-oss-120b none OpenAI 3 5.2 5/19 21.9s
#14 Gemma 4 31B medium Google 2 8.2 14/19 28.7s
#66 Gemma 4 31B none Google 2 6.9 10/19 3.86s
#76 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.80s
#109 Mistral Small 4 medium Mistral 2 5.5 5/19 5.65s
#135 Hy3 preview none Tencent 2 4.6 4/19 13.0s
#10 Gemini 3 PRO Preview medium Google 1 8.4 15/19 9.06s
#22 Hy3 preview high Tencent 1 8.0 15/19 56.8s
#28 Qwen3.6 Plus medium Qwen 1 7.9 13/19 17.1s
#34 Hy3 preview medium Tencent 1 7.8 13/19 16.0s
#36 Step 3.5 Flash none Stepfun 1 7.8 9/12 39.0s
#39 Hy3 preview low Tencent 1 7.7 14/19 24.6s
#45 Qwen3.5-Flash medium Qwen 1 7.6 11/19 65.8s
#47 GLM 5.1 medium Z.ai 1 7.6 12/19 24.4s

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)