AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

حل الألغاز: لم يتبع التعليمات

حل الألغاز
لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

15

إجمالي الإخفاقات

78

النموذج الأكثر تأثرًا

Gemini 3.1 Flash Lite 2
الترتيب النموذج الشركة عدد لم يتبع التعليمات درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#45 GPT-5.4 Mini medium OpenAI 1 7.8 2/3 4.37s
#51 Mimo V2 PRO medium Xiaomi 1 6.4 1/3 5.08s
#54 GPT-5 Mini medium OpenAI 1 5.6 1/3 15.2s
#60 Kimi K2.6 medium Moonshot AI 1 6.0 1/3 25.1s
#62 Step 3.5 Flash medium Stepfun 1 5.3 1/3 7.22s
#70 GPT-5.4 Nano medium OpenAI 1 4.1 0/3 3.79s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 1/3 37.7s
#75 Ring-2.6-1T medium Inclusionai 1 5.9 1/3 20.7s
#76 Kimi K2.5 medium Moonshot AI 1 5.3 1/3 43.2s
#79 Hunter Alpha medium OpenRouter 1 6.1 1/3 5.35s
#80 Mimo V2 Omni medium Xiaomi 1 5.9 1/3 2.38s
#81 Mercury 2 medium Inception 1 5.4 1/3 949ms
#84 Grok 4.20 Multi Agent Beta medium X AI 1 6.7 1/3 5.19s
#85 Gemma 4 31B none Google 1 6.5 1/3 4.23s
#86 Grok 4.1 Fast medium X AI 1 5.3 1/3 7.40s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية