AI BENCHY
Your ad here

إخفاقات الفئات في AI BENCHY

الذكاء العام: لم يتبع التعليمات

الذكاء العام
لم يتبع التعليمات

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور لم يتبع التعليمات في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

15

إجمالي الإخفاقات

58

النموذج الأكثر تأثرًا

Seed-2.0-Lite 1
الترتيب النموذج الشركة عدد لم يتبع التعليمات درجة الفئة اختبارات صحيحة زمن الاستجابة (المتوسط)
#57 GPT-5 Nano medium OpenAI 1 4.1 0/1 17.5s
#58 GLM 5V Turbo none Z.ai 1 4.6 0/1 2.22s
#60 Gemma 4 26B A4B none Google 1 4.0 0/1 3.54s
#63 Qwen3.5-35B-A3B none Qwen 1 6.5 0/1 1.19s
#65 MiMo-V2-Pro none Xiaomi 1 4.3 0/1 2.44s
#67 Qwen3.5-27B none Qwen 1 5.0 0/1 2.51s
#68 gpt-oss-120b medium OpenAI 1 4.3 0/1 7.90s
#69 Kimi K2.6 none Moonshot AI 1 5.4 0/1 1.55s
#70 Qwen3.5-122B-A10B none Qwen 1 5.0 0/1 1.12s
#71 MiniMax M2.5 medium Minimax 1 3.8 0/1 6.63s
#72 Hunter Alpha none OpenRouter 1 6.1 0/1 2.71s
#73 Mistral Small 4 medium Mistral 1 4.8 0/1 2.05s
#77 GLM 5 Turbo none Z.ai 1 4.2 0/1 2.18s
#78 Trinity Large Preview none Arcee AI 1 4.4 0/1 2.86s
#79 Grok 4.20 Beta none X AI 1 5.0 0/1 541ms

أفضل النماذج حسب عدد لم يتبع التعليمات

عدد لم يتبع التعليمات مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية