AI BENCHY
Advertise here

إخفاقات الفئات في AI BENCHY

حيل مضادة للذكاء الاصطناعي: لم يتبع التعليمات

حيل مضادة للذكاء الاصطناعي
لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في حيل مضادة للذكاء الاصطناعي، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

30

النموذج الأكثر تأثرًا

Laguna Xs.2 1
الترتيب النموذج الشركة عدد لم يتبع التعليمات درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#146 Laguna Xs.2 none Poolside 1 3.0 0/4 534ms
#163 Granite 4.1 8B none IBM Granite 1 4.9 1/4 844ms
#137 Elephant Alpha none Openrouter 1 6.6 2/4 963ms
#58 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#157 Grok 4.1 Fast none X AI 1 3.2 0/4 1.07s
#81 Mercury 2 medium Inception 1 6.9 2/4 1.12s
#101 Mimo V2 Omni none Xiaomi 1 3.6 0/4 1.63s
#40 Gemini 3.1 Flash Lite Preview medium Google 1 9.1 3/4 2.33s
#44 Gemini 3.1 Flash Lite medium Google 1 9.1 3/4 2.39s
#123 MiMo-V2.5-Pro none Xiaomi 1 3.3 0/4 2.67s
#121 Owl Alpha none Openrouter 1 3.4 0/4 2.78s
#140 Qwen3 Coder Next none Qwen 1 3.6 0/4 3.31s
#63 GPT-5.3 Chat none OpenAI 1 6.7 2/4 3.86s
#42 GPT-5.2 medium OpenAI 1 6.5 2/4 7.81s
#150 Qwen3 Coder Next medium Qwen 1 3.5 0/4 8.64s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية