AI BENCHY
Advertise here

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

215

النموذج الأكثر تأثرًا

Mistral Small 4 1
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#26 Qwen3.6 Plus medium Qwen 1 7.9 14/21 30.7s
#105 Nemotron 3 Super medium NVIDIA 3 5.8 8/21 32.0s
#17 GLM 5 medium Z.ai 1 8.3 15/21 33.5s
#158 GLM 4.7 Flash medium Z.ai 2 4.4 4/21 35.1s
#130 MiniMax M2.7 medium Minimax 5 5.3 5/21 38.2s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#119 Cobuddy medium Baidu 3 5.6 7/21 39.9s
#80 Mimo V2 Omni medium Xiaomi 2 6.7 10/21 41.2s
#94 GPT-5 Nano medium OpenAI 2 6.3 9/21 42.5s
#31 DeepSeek V4 Flash high DeepSeek 2 7.7 13/21 45.8s
#19 Seed-2.0-Lite medium Bytedance Seed 2 8.2 14/21 47.1s
#38 Grok 4.3 medium X AI 2 7.6 13/21 47.5s
#96 Ring-2.6-1T none Inclusionai 2 6.2 9/21 55.1s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#75 Ring-2.6-1T medium Inclusionai 2 6.9 11/21 61.3s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)