AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

5

إجمالي الإخفاقات

180

النموذج الأكثر تأثرًا

Qwen3.5-9B 2
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#82 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#62 Gemini 2.5 Flash none Google 1 6.2 7/18 903ms
#98 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#83 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#91 Mercury 2 none Inception 1 4.8 4/18 613ms

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)