AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات الفئات في AI BENCHY

الذكاء العام: لم يتبع التعليمات

الذكاء العام
لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

14

إجمالي الإخفاقات

74

النموذج الأكثر تأثرًا

GPT-5.3-Codex 1
الترتيب النموذج الشركة عدد لم يتبع التعليمات درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#134 GLM 5 Turbo none Z.ai 1 4.2 0/1 2.18s
#136 Elephant Alpha medium Openrouter 1 4.3 0/1 920ms
#137 Elephant Alpha none Openrouter 1 4.0 0/1 854ms
#144 GPT-5.4 Mini none OpenAI 1 4.8 0/1 1.82s
#148 GPT-5.4 Nano none OpenAI 1 3.8 0/1 1.31s
#150 Qwen3 Coder Next medium Qwen 1 6.3 0/1 1.39s
#151 Trinity Large Preview none Arcee AI 1 4.5 0/1 873ms
#152 MiMo-V2-Flash none Xiaomi 1 4.6 0/1 1.67s
#154 Qwen3.5-9B none Qwen 1 4.4 0/1 552ms
#155 Mercury 2 none Inception 1 4.8 0/1 628ms
#156 Hy3 preview none Tencent 1 4.1 0/1 16.1s
#157 Grok 4.1 Fast none X AI 1 4.4 0/1 1.08s
#159 Ling-2.6-1T none Inclusionai 1 5.0 0/1 20.3s
#160 LFM2-24B-A2B none Liquid 1 4.0 0/1 395ms

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية