AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

إخفاقات الفئات في AI BENCHY

اتباع التعليمات: إجابة خاطئة

اتباع التعليمات
إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في اتباع التعليمات، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

8

إجمالي الإخفاقات

53

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1
الترتيب النموذج الشركة عدد إجابة خاطئة درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#154 Qwen3.5-9B none Qwen 1 6.5 1/2 514ms
#155 Mercury 2 none Inception 1 6.5 1/2 551ms
#157 Grok 4.1 Fast none X AI 1 3.0 0/2 685ms
#158 GLM 4.7 Flash medium Z.ai 1 6.2 1/2 2.97s
#159 Ling-2.6-1T none Inclusionai 1 6.4 1/2 5.36s
#160 LFM2-24B-A2B none Liquid 1 6.3 1/2 752ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.8 0/2 541ms
#163 Granite 4.1 8B none IBM Granite 1 3.6 0/2 344ms

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية