AI BENCHY
Your ad here

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

180

النموذج الأكثر تأثرًا

LFM2-24B-A2B 2
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#98 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#97 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s
#96 GPT-5.4 Nano none OpenAI 3 4.5 2/18 1.40s
#95 Grok 4.1 Fast none X AI 2 4.5 3/18 1.76s
#94 MiMo-V2-Flash none Xiaomi 1 4.5 3/18 2.79s
#93 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#92 Qwen3 Coder Next medium Qwen 5 4.7 3/18 10.8s
#91 Mercury 2 none Inception 1 4.8 4/18 613ms
#90 Qwen3.5-9B none Qwen 3 4.8 4/18 1.47s
#89 GPT-4o-mini none OpenAI 1 4.9 4/18 2.00s
#88 Nemotron 3 Super none NVIDIA 4 5.1 4/18 8.54s
#87 Qwen3 Coder Next none Qwen 1 5.1 4/18 10.2s
#86 GPT-5.4 Mini none OpenAI 3 5.1 5/18 1.17s
#85 Elephant none Openrouter 3 5.2 5/18 1.23s
#84 gpt-oss-120b none OpenAI 5 5.2 4/18 12.0s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)