AI BENCHY
Advertise here

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار.

النماذج المعروضة

15

إجمالي الإخفاقات

210

النموذج الأكثر تأثرًا

MiniMax M2.7 5
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#125 MiniMax M2.7 medium Minimax 5 5.1 4/19 30.6s
#62 GPT-5.4 Mini medium OpenAI 4 7.2 10/19 16.0s
#69 GPT-5 Mini medium OpenAI 4 6.8 9/19 23.2s
#79 Grok 4.1 Fast medium X AI 4 6.5 9/19 24.0s
#101 gpt-oss-120b medium OpenAI 4 5.7 7/19 16.9s
#135 Hy3 preview none Tencent 4 4.6 4/19 13.0s
#144 Granite 4.1 8B none IBM Granite 4 4.1 2/19 743ms
#43 Step 3.5 Flash medium Stepfun 3 7.6 11/18 41.7s
#51 Gemini 3.1 Flash Lite high Google 3 7.5 11/18 62.0s
#60 GPT-5.2 medium OpenAI 3 7.2 11/19 15.2s
#70 Gemini 3.1 Flash Lite minimal Google 3 6.8 10/19 1.41s
#82 Mercury 2 medium Inception 3 6.3 8/19 2.23s
#87 Nemotron 3 Super medium NVIDIA 3 6.1 8/19 18.7s
#97 Cobuddy medium Baidu 3 5.8 7/19 36.5s
#98 Owl Alpha none Openrouter 3 5.8 7/19 6.83s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)