AI BENCHY
Advertise here

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

15

إجمالي الإخفاقات

215

النموذج الأكثر تأثرًا

Kimi K2.5 2
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#96 Ring-2.6-1T none Inclusionai 2 6.2 9/21 55.1s
#38 Grok 4.3 medium X AI 2 7.6 13/21 47.5s
#19 Seed-2.0-Lite medium Bytedance Seed 2 8.2 14/21 47.1s
#31 DeepSeek V4 Flash high DeepSeek 2 7.7 13/21 45.8s
#94 GPT-5 Nano medium OpenAI 2 6.3 9/21 42.5s
#80 Mimo V2 Omni medium Xiaomi 2 6.7 10/21 41.2s
#119 Cobuddy medium Baidu 3 5.6 7/21 39.9s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#130 MiniMax M2.7 medium Minimax 5 5.3 5/21 38.2s
#158 GLM 4.7 Flash medium Z.ai 2 4.4 4/21 35.1s
#17 GLM 5 medium Z.ai 1 8.3 15/21 33.5s
#105 Nemotron 3 Super medium NVIDIA 3 5.8 8/21 32.0s
#26 Qwen3.6 Plus medium Qwen 1 7.9 14/21 30.7s
#100 Grok Build 0.1 none X AI 2 6.0 7/19 28.7s
#65 Grok 4.20 medium X AI 2 7.1 12/21 27.7s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)