AI BENCHY
Your ad here

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

180

النموذج الأكثر تأثرًا

LFM2-24B-A2B 2
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#83 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#82 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#81 Elephant medium Openrouter 3 5.2 5/18 1.27s
#80 MiniMax M2.7 medium Minimax 6 5.3 4/18 31.1s
#79 Grok 4.20 Beta none X AI 3 5.3 4/18 1.19s
#78 Trinity Large Preview none Arcee AI 2 5.3 5/18 5.07s
#77 GLM 5 Turbo none Z.ai 2 5.5 6/18 2.94s
#74 GLM 4.7 Flash none Z.ai 2 5.6 5/18 3.35s
#75 GLM 5.1 none Z.ai 2 5.6 5/18 4.33s
#73 Mistral Small 4 medium Mistral 3 5.7 5/18 5.64s
#72 Hunter Alpha none OpenRouter 2 5.7 6/18 4.58s
#71 MiniMax M2.5 medium Minimax 3 5.7 5/18 39.6s
#70 Qwen3.5-122B-A10B none Qwen 1 5.7 6/18 3.69s
#69 Kimi K2.6 none Moonshot AI 3 5.8 7/18 2.05s
#68 gpt-oss-120b medium OpenAI 4 5.8 7/18 16.1s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)