AI BENCHY
Your ad here

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

180

النموذج الأكثر تأثرًا

LFM2-24B-A2B 2
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#48 Gemma 4 31B none Google 1 6.9 10/18 4.02s
#47 Grok 4.20 medium X AI 4 7.0 9/18 10.3s
#46 Kimi K2.5 medium Moonshot AI 2 7.0 9/18 72.4s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#44 GPT-5.4 Mini medium OpenAI 5 7.3 9/18 15.2s
#42 Claude Sonnet 4.6 none Anthropic 1 7.4 11/18 4.98s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#40 GPT-5.2 medium OpenAI 3 7.5 11/18 14.0s
#39 Seed-2.0-Mini medium Bytedance Seed 1 7.5 11/18 69.7s
#38 GPT-5.4 Nano medium OpenAI 3 7.6 11/18 11.2s
#36 GPT-5.3 Chat none OpenAI 2 7.7 11/18 5.88s
#35 MiMo-V2-Omni medium Xiaomi 2 7.7 11/18 16.8s
#34 Kimi K2.6 medium Moonshot AI 3 7.7 11/18 45.2s
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#31 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)