AI BENCHY
Advertise here

إخفاقات AI BENCHY

إخفاقات لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي تواجه لم يتبع التعليمات أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

15

إجمالي الإخفاقات

215

النموذج الأكثر تأثرًا

Granite 4.1 8B 4
الترتيب النموذج الشركة عدد لم يتبع التعليمات النتيجة اختبارات صحيحة زمن الاستجابة (المتوسط)
#131 Qwen3.5-122B-A10B none Qwen 2 5.3 6/21 3.41s
#133 DeepSeek V3.2 none DeepSeek 1 5.2 6/21 13.8s
#134 GLM 5 Turbo none Z.ai 2 5.2 6/21 2.82s
#136 Elephant Alpha medium Openrouter 2 5.1 6/21 1.27s
#138 Ling-2.6-flash none Inclusionai 2 5.0 6/21 9.34s
#126 gpt-oss-120b none OpenAI 2 5.4 6/19 21.6s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#113 DeepSeek V4 Pro none DeepSeek 2 5.7 7/21 12.4s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 2 5.7 7/21 4.39s
#115 Qwen3.5-27B none Qwen 2 5.7 7/21 1.68s
#116 Hunter Alpha none OpenRouter 2 5.7 6/18 4.70s
#117 Qwen3.5-35B-A3B none Qwen 2 5.6 7/21 3.37s
#118 Qwen3.6 27B none Qwen 2 5.6 7/21 3.72s
#119 Cobuddy medium Baidu 3 5.6 7/21 39.9s
#120 Mimo V2 PRO none Xiaomi 2 5.6 7/21 2.27s

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)