AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

الذكاء العام: لم يتبع التعليمات

الذكاء العام
لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

15

إجمالي الإخفاقات

74

النموذج الأكثر تأثرًا

GPT-5.3-Codex 1
الترتيب النموذج الشركة عدد لم يتبع التعليمات درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#78 Qwen3.6 27B medium Qwen 1 6.5 0/1 39.5s
#79 Hunter Alpha medium OpenRouter 1 7.0 0/1 6.44s
#81 Mercury 2 medium Inception 1 4.8 0/1 821ms
#83 Step 3.5 Flash none Stepfun 1 4.0 0/1 14.4s
#84 Grok 4.20 Multi Agent Beta medium X AI 1 5.8 0/1 6.40s
#86 Grok 4.1 Fast medium X AI 1 4.2 0/1 16.2s
#87 Gemini 3.1 Flash Lite minimal Google 1 4.0 0/1 791ms
#88 Qwen3.7 Plus none Qwen 1 5.3 0/1 1.33s
#94 GPT-5 Nano medium OpenAI 1 4.1 0/1 17.5s
#99 gpt-oss-120b medium OpenAI 1 4.3 0/1 7.90s
#102 Gemma 4 26B A4B none Google 1 4.0 0/1 3.54s
#103 DeepSeek V4 Pro high DeepSeek 1 6.1 0/1 25.1s
#105 Nemotron 3 Super medium NVIDIA 1 4.1 0/1 6.91s
#106 Grok 4.20 Beta none X AI 1 5.0 0/1 541ms
#109 GLM 5V Turbo none Z.ai 1 4.6 0/1 2.22s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية