AI BENCHY
Your ad here

إخفاقات الفئات في AI BENCHY

حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات

حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

17

النموذج الأكثر تأثرًا

Elephant 1
الترتيب النموذج الشركة عدد لم يتبع التعليمات درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#85 Elephant none Openrouter 1 6.6 2/4 963ms
#29 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#95 Grok 4.1 Fast none X AI 1 3.2 0/4 1.07s
#54 Mercury 2 medium Inception 1 6.9 2/4 1.12s
#17 Gemini 3.1 Flash Lite Preview medium Google 1 9.1 3/4 2.33s
#87 Qwen3 Coder Next none Qwen 1 3.6 0/4 3.31s
#36 GPT-5.3 Chat none OpenAI 1 6.7 2/4 3.86s
#84 gpt-oss-120b none OpenAI 1 6.6 2/4 6.03s
#40 GPT-5.2 medium OpenAI 1 6.5 2/4 7.81s
#92 Qwen3 Coder Next medium Qwen 1 3.5 0/4 8.64s
#68 gpt-oss-120b medium OpenAI 1 6.7 2/4 10.2s
#31 GLM 5V Turbo medium Z.ai 1 7.2 2/4 10.8s
#34 Kimi K2.6 medium Moonshot AI 1 7.0 2/4 11.6s
#45 GPT-5 Mini medium OpenAI 1 7.1 2/4 13.9s
#93 GLM 4.7 Flash medium Z.ai 1 4.7 1/4 15.0s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية