AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

15

إجمالي الإخفاقات

216

النموذج الأكثر تأثرًا

MiniMax M2.7 5
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#62 GLM 5V Turbo medium Z.ai 1 7.4 11/20 20.2s
#65 Claude Opus 4.8 none Anthropic 1 7.3 12/20 3.51s
#66 Laguna M.1 medium Poolside 1 7.3 13/19 14.7s
#71 Claude Opus 4.6 medium Anthropic 1 7.2 12/20 25.5s
#75 Seed-2.0-Mini medium Bytedance Seed 1 7.1 11/20 80.2s
#77 MiMo-V2-Flash medium Xiaomi 1 7.1 11/20 20.3s
#78 Claude Sonnet 4.6 none Anthropic 1 7.0 11/20 5.27s
#83 Gemma 4 31B none Google 1 6.7 10/20 4.05s
#87 Qwen3.6 27B medium Qwen 1 6.6 9/20 57.8s
#90 Gemini 3.1 Flash Lite none Google 1 6.6 9/20 1.09s
#100 MiMo-V2-Omni none Xiaomi 1 6.2 8/20 2.44s
#111 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#118 GLM 4.7 Flash none Z.ai 1 5.6 6/20 3.01s
#120 GPT-5.4 none OpenAI 1 5.6 7/20 1.45s
#122 Qwen3.6 Flash none Qwen 1 5.5 7/20 1.65s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)