AI BENCHY
Your ad here

إخفاقات AI BENCHY

إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

572

النموذج الأكثر تأثرًا

LFM2-24B-A2B 9
الترتيب النموذج الشركة عدد إجابة خاطئة النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#53 GLM 5 none Z.ai 9 6.6 9/18 4.23s
#52 Grok 4.1 Fast medium X AI 3 6.7 9/18 23.9s
#51 Nemotron 3 Super medium NVIDIA 3 6.7 9/18 19.1s
#50 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#49 Qwen3.5 Plus 2026-02-15 none Qwen 9 6.8 9/18 2.60s
#48 Gemma 4 31B none Google 5 6.9 10/18 4.02s
#47 Grok 4.20 medium X AI 3 7.0 9/18 10.3s
#46 Kimi K2.5 medium Moonshot AI 4 7.0 9/18 72.4s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#44 GPT-5.4 Mini medium OpenAI 4 7.3 9/18 15.2s
#43 Qwen3.5-35B-A3B medium Qwen 2 7.4 10/18 44.5s
#42 Claude Sonnet 4.6 none Anthropic 3 7.4 11/18 4.98s
#41 MiMo-V2-Flash medium Xiaomi 3 7.5 11/18 23.4s
#40 GPT-5.2 medium OpenAI 2 7.5 11/18 14.0s
#39 Seed-2.0-Mini medium Bytedance Seed 2 7.5 11/18 69.7s

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)