AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات AI BENCHY

إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

15

إجمالي الإخفاقات

1104

النموذج الأكثر تأثرًا

Mercury 2 15
الترتيب النموذج الشركة عدد إجابة خاطئة النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#85 Kimi K2.5 medium Moonshot AI 5 6.7 9/20 89.0s
#102 Nemotron 3 Super medium NVIDIA 5 5.9 8/20 20.9s
#11 GPT-5.5 medium OpenAI 4 8.7 16/20 37.9s
#13 Gemini 3 Flash Preview low Google 4 8.6 16/20 5.81s
#17 GPT-5.3-Codex medium OpenAI 4 8.3 14/20 16.0s
#23 Qwen3.5 Plus 2026-02-15 medium Qwen 4 8.1 14/20 67.6s
#26 Hy3 preview low Tencent 4 7.9 15/20 24.6s
#27 Gemini 3.5 Flash minimal Google 4 7.9 14/20 1.58s
#31 GLM 5 Turbo medium Z.ai 4 7.9 13/20 22.7s
#35 Qwen3.6 35B A3B medium Qwen 4 7.8 14/20 17.3s
#36 Grok 4.3 medium X AI 4 7.8 13/20 49.2s
#45 Grok Build 0.1 medium X AI 4 7.7 13/20 42.4s
#56 GLM 5.1 medium Z.ai 4 7.4 12/20 33.5s
#58 MiMo-V2.5 medium Xiaomi 4 7.4 12/20 20.3s
#61 Step 3.5 Flash medium Stepfun 4 7.4 11/19 43.2s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)