AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات الفئات في AI BENCHY

الذكاء العام: إجابة خاطئة

الذكاء العام
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

15

إجمالي الإخفاقات

32

النموذج الأكثر تأثرًا

Step 3.7 Flash 1
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#22 Step 3.7 Flash medium Stepfun 1 4.0 0/1 6.85s
#23 GLM 5 Turbo medium Z.ai 1 6.1 0/1 10.1s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 1 4.9 0/1 25.3s
#39 Qwen3.6 Flash medium Qwen 1 4.8 0/1 9.88s
#47 Grok Build 0.1 medium X AI 1 4.4 0/1 18.4s
#57 Step 3.7 Flash low Stepfun 1 3.4 0/1 7.00s
#61 Gemini 3.1 Flash Lite low Google 1 4.0 0/1 1.37s
#71 Step 3.7 Flash high Stepfun 1 5.5 0/1 4.17s
#74 Qwen3.6 Max Preview none Qwen 1 4.3 0/1 1.62s
#80 Mimo V2 Omni medium Xiaomi 1 5.4 0/1 3.61s
#90 Gemini 3.1 Flash Lite none Google 1 4.0 0/1 992ms
#95 Qwen3.5 Plus 2026-02-15 none Qwen 1 4.4 0/1 2.26s
#96 Ring-2.6-1T none Inclusionai 1 4.3 0/1 15.6s
#97 Gemini 2.5 Flash none Google 1 5.0 0/1 615ms
#100 Grok Build 0.1 none X AI 1 4.3 0/1 12.5s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية