AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

10

إجمالي الإخفاقات

216

النموذج الأكثر تأثرًا

MiniMax M2.7 5
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#131 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 5.4 10/19 17.1s
#134 Laguna Xs.2 none Poolside 1 5.3 9/19 806ms
#137 DeepSeek V4 Flash none DeepSeek 1 5.1 5/20 28.0s
#138 Qwen3 Coder Next none Qwen 1 5.1 5/20 9.05s
#140 Mistral Small 4 none Mistral 1 5.0 5/20 629ms
#141 MiMo-V2.5 none Xiaomi 1 5.0 5/20 2.20s
#144 GPT-4o-mini none OpenAI 1 4.9 5/20 1.85s
#151 Mercury 2 none Inception 1 4.6 4/20 614ms
#156 Qwen3.5-9B medium Qwen 1 4.2 3/20 83.3s
#157 LFM2-24B-A2B none Liquid 1 4.2 2/16 782ms

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)