AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات AI BENCHY

إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

8

إجمالي الإخفاقات

1104

النموذج الأكثر تأثرًا

Mercury 2 15
الترتيب النموذج الشركة عدد إجابة خاطئة النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#6 Gemini 3.5 Flash medium Google 2 9.0 17/20 4.29s
#7 Claude Opus 4.7 medium Anthropic 2 8.9 17/20 4.48s
#14 Gemini 3.1 Flash Lite Preview high Google 2 8.6 13/16 68.1s
#25 Gemma 4 31B medium Google 2 8.0 14/20 35.4s
#68 Qwen3.5-35B-A3B medium Qwen 2 7.3 11/20 69.7s
#1 Gemini 3 Flash Preview medium Google 1 9.8 19/20 16.5s
#2 Gemini 3.5 Flash high Google 1 9.6 19/20 8.30s
#37 Step 3.5 Flash none Stepfun 1 7.8 9/12 39.0s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)